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由 美国 当代 著名 统计 学 家 工 ' 沃 塞 曼 所 著 的 ( 统计 学 完全 教程 》 是 一 
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译 者 前 言 


统计 学 是 一 门 数据 分 析 科 学 , 它 有 着 漫长 的 发 展 历程 . 值得 一 提 的 是 , 在 20 世 
纪 20 至 30 年 代 , 数理 统计 学 的 基本 理论 框架 形成 了 , 继而 得 到 了 快速 的 发 展 , 数理 
统计 学 更 加 系统 化 、 数 学 化 . 但 是 统计 学 的 主要 任务 仍然 是 分 析 数 据 . 计算 机 技术 
的 发 展 和 广泛 应 用 改变 了 统计 学 的 学 科 结构 和 研究 方法 . 1979 年 斯 坦 福 大 学 教授 
Efron 提出 的 基于 计算 机 的 统计 推断 技术 Bootstrap 方法 就 是 一 个 很 典型 的 例子 . 

21 世纪 统计 学 的 教育 是 一 个 很 值得 思考 和 研究 的 重大 课题 . 一 方面 我 们 继续 
注重 统计 学 的 基本 理论 素质 的 培养 , 另 一 方面 强调 提高 数据 分 析 的 实际 能 力 . 这 两 
个 方面 缺 一 不 可 , 互相 促进 . 但 是 , 现存 的 国内 统计 学 教材 则 无 法 满足 这 两 个 要 求 . 
数理 统计 学 方面 的 教材 虽然 理论 较 严 谨 , 但 是 忽视 了 统计 学 的 背景 和 应 用 . 而 介绍 
数据 分 析 的 教材 则 较 欠 缺 理论 基础 . 

由 美国 当代 著名 统计 学 家 拉 里 . 沃 塞 曼 所 著 的 这 本 教材 恰恰 可 以 同时 满足 上 
述 两 个 要 求 , 也 可 以 解决 目前 国内 统计 学 教材 存在 的 一 些 不 足 . 拉 里 . 沃 塞 曼 是 美 
国 卡 内 基 - 梅 隆 大 学 统计 学 系 教授 , 他 还 是 1999 年 度 “ 考 普 斯 ”总 统 奖 获得 者 . 正 
如 书 名 一 样 , 本 书包 含 了 统计 学 领域 几乎 全 部 的 知识 , 除了 传统 的 数理 统计 教材 中 
的 内 容 外 , 还 包含 了 诸如 非 参 数 回归 、 自 助 法 、 分 类 等 统计 学 领域 的 新 方法 和 技术 . 
我 们 对 《统计 学 完全 教程 》 一 书 进行 了 认真 的 阅读 和 研究 , 认为 它 是 一 本 优秀 的 教 
材 和 参考 书 , 将 其 翻译 成 中 文 介绍 给 我 国 的 广大 读者 . 

本 书 的 第 一 个 主要 特点 是 其 适用 面 广 . 作为 教材 , 本 书 适用 于 数学 、 统 计 学 、 计 
算 机 科学 的 高 年 级 本 科 生 以 及 统计 学 、 计 算 机 科学 的 研究 生 . 它 也 适用 于 即将 从 事 
统计 工作 而 又 需要 补充 数理 统计 背景 知识 的 毕业 生 . 读者 可 以 根据 自己 的 时 间 和 
需要 , 有 选择 地 学 习 相关 内 容 . 

本 书 的 第 二 个 主要 特点 是 取材 面 广 . 它 包含 了 统计 学 领域 几乎 全 部 的 知识 . 第 
一 部 分 讲述 了 概率 论 的 基本 知识 , 而 且 与 通常 的 概率 论 教材 不 同 的 是 , 该 部 分 强调 
在 统计 学 里 常用 到 的 概率 知识 , 如 随机 变量 的 收敛 性 中 的 Delta 方法 . 第 二 部 分 的 
统计 推断 则 涵盖 了 点 估计 、 假 设 检验 、 分 布 函 数 的 估计 和 统计 泛 函 、Bootstrap( 自 
助 法 ) 方法 、 参 数 推断 及 贝 叶 斯 推断 和 统计 决策 理论 . 而 第 三 部 分 则 介绍 了 统计 模 
型 和 方法 , 既 有 常见 的 回归 和 多 变量 模型 , 也 有 因果 推断 、 图 模型 、 非 参数 模型 、 光 
滑 方 法 、 分 类 、 模拟 技术 等 统计 学 的 前 沿 课题 . 

本 书 的 第 三 个 主要 特点 是 既 注 重 概率 统计 基本 理论 的 讲述 , 又 强调 数据 分 析 能 
力 的 培养 . 本 书 所 有 的 基本 概念 和 原理 的 讲述 是 清晰 的 , 完整 的 . 而 同时 本 书 具有 大 
量 的 实际 的 例子 , 这 些 例子 的 原始 数据 可 以 在 作者 的 个 人 主页 上 下 载 , 并 且 附 有 相 
应 的 RR 程序 . R 是 统计 学 家 最 钟爱 的 统计 分 析 软 件 之 一 , 而 且 是 一 款 免费 的 开源 软 
件 . 广大 读者 通过 实际 的 数据 例子 不 但 可 以 学 到 数据 分 析 方 法 , 而 且 还 可 以 加 深 对 、 
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统计 学 基本 概念 和 方法 的 理解 . 如 果 将 统计 理论 和 数据 分 析 能 力 比 作 人 的 两 条 腿 ， 
那么 这 本 书 无 疑 将 教会 学 生 如 何 用 “两 条 腿 走路 ”, 这 与 我 们 的 统计 教育 目标 是 吻 
合 的 . 

为 了 保持 原 书 的 风格 和 特色 , 在 翻译 的 过 程 中 , 我 们 保留 了 原 书 的 所 有 栏目 , 尽 
可 能 地 忠实 于 原著 , 由 于 本 书 内 容 涵盖 面 很 广 , 并 涉及 很 多 统计 学 前 沿 的 内 容 , 很 多 
统计 学 词汇 还 没有 严格 的 中 文 翻译 . 在 翻译 过 程 中 , 我 们 尽量 参考 现存 的 中 文 翻译 ， 
对 于 没有 相应 中 文 翻译 的 专业 词汇 , 我 们 请 教 相关 专家 , 力求 将 本 书 翻译 好 . 由 于 时 
WRL, 加 上 我 们 水 平 有 限 , 译文 中 一 定 有 不 尽 如 入 意 之 处 , 敬 请 读者 不 音 指正 . 

阅读 本 书 只 需要 具备 微 积 分 和 线性 代数 的 基本 知识 , 不 需要 概率 论 和 数理 统计 
的 相关 知识 . 因此 , 对 于 那些 想 尽快 掌握 概率 统计 基础 知识 的 读者 而 言 , 本 书 是 一 
本 很 好 的 入 门 教材 . 又 由 于 其 内 容 的 完备 性 和 前 瞻 性 , 本 书 可 作为 统计 学 、 数 学 、 计 
算 机 科学 、 机 器 学 习 和 数据 挖掘 领域 的 高 年 级 本 科 生 、 研 究 生 的 教材 . 对 于 想 了 解 
概率 统计 方法 , 尤其 是 想 了 解 统计 学 前 沿 的 实际 工作 者 , 本 书 也 不 失 为 一 本 有 价值 
的 参考 书 . 

本 书 由 代金 翻译 第 1 ~ 4 章 , 张波 翻译 第 5~8 章 , RAE ATES 9~16 章 , 刘 中 
华 翻译 第 17~24 章 , 全 书 由 张波 统 检 并 负责 校 译 . 

感谢 在 本 书 翻译 与 校对 过 程 中 给 予 我 们 支持 和 帮助 的 同仁 吴 喜 之 教授 、 刘 畅 
WAR, ROMER. 


译 者 
2008 年 3 月 
于 中 国人 民 大 学 统计 学 院 
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从 字面 含义 上 讲 , 书 名 “统计 学 完全 教程 HKSAR, 但 从 本 书 的 内 
容 上 讲 , 使 用 此 书 名 也 并 无 不 妥 , 因为 它 比 一 般 的 数理 统计 介绍 书籍 涉及 的 面 
要 广泛 的 多 

本 书 是 为 那些 希望 快速 掌握 概率 和 统计 知识 的 读者 而 编写 的 . 它 适合 计算 机 科 
学 、 数学、 统计 学 和 其 他 相关 学 科 的 研究 生 或 优秀 本 科 生 : 本 书包 括 许 多 最 新 的 课 

” 题 , 如 非 参数 曲线 估计 、 自 助 法 、 分 类 等， 这 些 课题 通常 都 有 相关 的 后 续 课程. 学 习 

本 书 时 , 读者 需要 了 解 一 些 有 关 积 分 和 线性 代数 的 知识 ， 不 需要 概率 和 统计 的 相关 
知识 . 

统计 、 数据 控 气 和 和 机 器 学 习 三 者 都 关注 收集 和 分 析 数 据 . 曾经 一 段 时间 ， 统计 
研究 在 统计 部 门 进 行 , 而 数据 挖掘 和 机 器 学 习 研究 在 计算 机 科学 部 门 设置 ， 统计 学 
家 认为 计算 机 科学 家 是 在 重复 劳动， 而 计算 机 科学 家 认为 统计 理论 没有 应 用 于 他 们 
的 问题 . 

事 过 境 迁 , 时 代 也 发 生 了 变化 ， 现在 的 统计 学 家 都 已 经 意识 到 计算 机 科学 家 作 
出 了 卓越 的 贡献 而 计算 机 科学 家 也 意识 到 统计 理论 和 方法 的 普遍 性 ， 适应 性 强 的 数 
据 挖 气 算 法 通常 比 统计 学 家 的 思想 更 具有 预见 性 , 而 形式 化 的 统计 理论 又 比 计算 机 
科学 家 意识 到 的 更 具有 普遍 性 . 

从 事 数据 分 析 的 学 生 或 者 立志 开发 新 型 方法 进行 数据 分 析 的 学 生 需 要 掌握 良 
好 的 基本 概率 和 数理 统计 基础. 没有 理解 最 基本 的 统计 含义 就 去 使 用 如 神经 网 络 、 
提升 算法 、 支持 向 量 机 等 高 级 的 工具 就 如 同 在 没有 学 会 如 何 使 用 邦 迪 就 去 做 脑 部 
手术 一 样 . 

但 是 学 生 从 哪儿 能 快速 学 习 最 基础 的 概率 和 统计 知识 呢 ? 我 的 答案 是 无 处 不 
在 , 至 少 当 我 的 计算 机 学 同事 问 我 “我 要 将 我 的 学 生 送 到 哪儿 去 快速 掌握 现代 统计 
的 知识 ?” 的 时 候 我 是 如 此 回答 的 . 典型 的 数理 统计 课程 在 枯燥 乏味 的 内 容 (计数 方 
法 , 二 维 积分 等 ) 上 消耗 了 很 多 时 间 , 而 真正 讲解 前 沿 课题 (自助 法 ， 曲线 估计 , 图 模 
型 等 ) 的 时 间 却 少 之 又 少 ， 所 以 我 决定 重新 设计 本 科 生 在 概率 和 数理 统计 上 的 课程， 
本 书 就 是 以 此 为 宗旨 进行 编写 的 . 本 书 的 主要 内 容 如 下 : 

1. 本 书 适用 于 计算 机 科学 的 研究 生 和 数学 、 统 计 学 、 计算 机 科学 高 年 级 的 本 
BE, 它 也 适用 于 即将 从 事 统计 工作 而 又 需要 补充 数理 统计 背景 知识 的 毕业 生 . 

2. 本 书包 括 了 初级 教程 中 没有 的 前 沿 课题 , 如 非 参数 回归 、 自 助 法 、 密度 估计 
和 图 模型 . 

3. 本 书 删 掉 了 在 统计 推断 中 无 足 轻重 的 内 容 , 如 计数 方法 . 

4. 本 书 旨 在 强调 基本 概念 , 力图 避免 枯燥 的 计算 . 

5. 本 书 在 讲述 参数 统计 推断 之 前 先 讲述 非 参数 统计 推断 - 
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6. 本 书 握 弃 了 通常 的 “第 一 学 期 = 概率 " ,“ 第 二 学 期 = 统计 ”的 教育 模式 . 在 
以 前 的 教育 模式 下 , 一 些 学生 仅 仅 学 习 了 前 半 部 分 有 关 概 率 的 知识 , 而 不 懂得 任何 
统计 理论 的 知识 , 则 可 能 产生 难以 弥补 的 过 错 .另外 , 当 学 生 能 够 将 概率 应 用 到 后 
面 的 统计 中 的 时 候 , 概率 才能 真正 体现 它 的 内 在 价值 . 本 书 随机 过 程 是 例外 , 它 将 
在 后 面 的 章节 里 面 讲述 . 

7. 本 书 前 后 节奏 变化 快 , 包括 了 很 多 内 容 . 我 的 同事 开玩笑 说 我 在 本 书 中 几乎 
包括 了 所 有 的 统计 知识 , 因此 采用 了 这 一 书 名 . 本 书 学 习 起 来 比较 费时 费力 , 但 我 
尽力 使 内 容 比 较 直观 具体 . 尽管 节奏 变化 很 快 , 但 仍 保证 内 容 有 血 有 肉 、 易 于 理解 . 

8. 严格 与 清晰 并 非 一 个 含义 , 本 书 内 容 尽量 保证 两 者 的 平衡 性 , 使 它们 达到 有 
机 的 统一 . 为 避免 在 一 些 细 枝 末节 上 陷入 困境 , 很 多 结果 没有 给 出 具体 的 证 明 . 每 
章 结尾 的 文献 评述 为 读者 列 出 其 他 合适 的 参考 书 . 

9. 在 我 的 个 人 主页 上 有 R 语言 编码 程序 , 学 生 可 以 用 这 些 程序 来 完成 所 有 的 
计算 , 具体 网 页 是 http://www.stat.cmu.edu/~larry/all-of-statistics 

但 是 , 本 书 并 未 讲述 R 及 其 常用 的 计算 机 语言 . 

本 书 第 工 部 分 讨论 概率 理论 , 它 是 表示 不 确定 性 的 正式 用 语 , 是 统计 推断 的 基 
础 , 在 概率 论 中 我 们 研究 的 基本 问题 是 

给 定数 据 的 生成 过 程 , 其 输出 结果 具有 什么 样 的 性 质 ? 

本 书 第 I 部 分 包括 统计 推断 及 其 相关 内 容 、 数 据 挖 所 和 机 器 学 习 , 统计 推断 的 
基本 问题 可 看 成 是 概率 论 的 反 向 思维 : 

给 定 输出 结果 , 我 们 能 得 出 关于 数据 生成 过 程 什么 样 的 性 质 ? 

以 上 思想 如 图 1 所 示 . 


概率 


oS 


数据 生成 过 程 观测 数据 


下 


推断 与 数据 挖掘 


1 概率 和 统计 推断 的 关系 


预测 、 分 类 、 育 类 和 估计 都 是 统计 推断 的 特殊 情形 . 数据 分 析 、 机 器 学 习 和 数 
据 挖掘 是 统计 推断 在 不 同 实践 中 的 称谓 , 它 依赖 于 具体 使 用 的 环境 . 

第 II 部 分 将 第 II 部 分 的 结论 应 用 到 具体 问题 中 , 如 回归 、 图 像 模型 、 因 果 关 
系 、 密 度 估计 、 平 滑 、 分 类 和 模拟 . 第 II 部 分 也 包括 多 章 概率 论 的 内 容 , 具体 内 容 
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为 随机 过 程 , 其 中 包括 马尔 可 夫 链 . 

本 书 的 很 多 地 方 都 引用 了 其 他 教材 的 内 容 , 很 多 章节 后 面 都 有 文献 评述 , 一 是 
为 了 向 那些 文献 的 作者 表示 由 训 的 感谢 , 其 次 是 为 了 给 读者 提供 有 帮助 的 其 他 参考 
书 . 在 这 里 要 特别 提 及 的 参考 书 是 (DeGroot and Schervish, 2002; Grimmett and 
Stirzaker, 1982), 本 书 从 这 两 本 参考 书 中 引用 了 很 多 例子 和 练习 . 

花 几 年 时 间 编 写 一 本 书 , 有 些 想法 和 课 后 练习 的 出 处 就 失去 了 线索 . 本 书 涉及 
的 问题 有 一 些 是 我 自己 构思 的 , 有 一 些 来 源 于 平时 的 教育 工作 , 还 有 一 些 摘自 其 他 
参考 书 . 如 果 未 经 作者 的 许可 就 擅自 引用 了 他 的 内 容 , 我 希望 没有 冒犯 对 方 . 就 像 
我 的 同事 Mark Schervish 在 他 的 书 中 (Schervish,1995) 写 到 : 

ee 每 章 后 面 的 问题 出 自 很 多 地 方 …… 有 些 我 也 不 知道 具体 出 自 哪 
Jlri 如 果 我 未 经 许可 就 使 用 了 您 的 内 容 , 请 在 此 接受 我 的 感谢 

在 这 里 我 要 感谢 很 多 朋友 , 没有 他 们 的 帮助 我 不 可 能 完成 此 书 的 编写 首先 要 
感谢 使 用 本 书 早期 版 本 并 提供 了 很 多 反馈 的 广大 学 生 . 要 特别 感谢 Liz Prather 和 
Jennifer Bakal, 他 们 仔细 阅读 了 这 本 书 ; 要 特别 感谢 Rob Reeder, 他 逐 字 逐 句 的 阅 
读 了 这 本 书 , 并 提供 了 无 数 宝贵 的 修改 意见 . 要 特别 感谢 的 还 有 Chris Genovese, 他 
不 仅 对 本 书 内 容 提供 了 很 多 创造 性 想法 , 还 花 了 很 多 时 间 编 写 Latex 程序 , 本 书 的 
版 面 设 计 归 功 于 他 的 努力 ; 由 于 本 人 所 学 有 限 , 在 一 些 格式 上 难免 存在 不 足 , 请 读 
者 谅解 . David Hand,Sam Roweis 和 David Scott 仔细 阅读 了 本 书 并 提供 了 大 量 改 
进 的 意见 . John Lafferty 和 Peter Spirtes 也 给 了 我 很 多 启发 . John Kimmel 对 本 书 
的 编写 过 程 作出 了 很 大 的 贡献 . 最 后 , 我 的 妻子 Isabella Cerdinelli 给 予 我 无 限 的 关 
爱 、 支持 和 鼓励 . 在 此 并 向 他 们 致 以 深 深 的 谢意 . 


L. KER 
宾夕法尼亚 州 ” 匹 效 堡 
2003 年 7 月 
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11 3] È 
概率 是 描述 不 确定 性 的 数学 语言 . 本 章 将 介绍 概率 论 的 基本 概念 . 这 里 的 介绍 
从 样本 空间 入 手 , 样本 空间 指 一 切 可 能 结果 的 集合 . 
1.2 ”样本 空间 和 事件 


样本 空间 O 是 某 试验 所 有 可 能 结果 的 集合 . 样本 空间 Q 中 的 点 w 称 为 样本 点 、 
实现 或 者 元 素 . N 的 子 集 称 为 事件 - 

1.1 例假 如 将 一 枚 硬币 连续 抛 两 次 , 则 9 = {HH, HT,TH,TT}, 在 抛 第 一 次 
出 现 正面 的 事件 是 4 = {HH, HT}. 

1.2 例 ” 令 ww 表 示 某 一 物理 量 的 测量 结果 , 如 温度 , 则 N =R = (00,+00). 因 
为 温度 是 有 下 界 的 , 也 许 读者 认为 =R 并 不 准确 , 但 将 样本 空间 考虑 得 比 实际 范 
围 大 并 没有 什么 坏处 . 测量 值 大 于 10 但 小 于 等 于 23 这 一 事件 记 为 4 = (10,23). 

1.3 例 ”假如 水 不 停止 地 抛 一 枚 硬币 , 则 样本 空间 就 是 无 限 集 


Q = {w = (wi, wz w3") : wi E€ {H,T}}. 
今 巨 表示 第 一 次 正面 朝 上 出 现在 第 3 次 抛 硬币 这 一 事件 , 则 
E = {(wi,w2,wg,-++) :wi = Tw =T,ws = H,wi € {H,T},i > 3}. 

给 定 事件 A, A A = {w EO: wg A} 表示 集合 4 的 余 集 , 在 非 正式 场合 , 4 
可 读 作 “ 非 A”. 9 的 余 集 为 空 集 Ø. 

A 5 B 的 并 集 记 为 

ALJB={weQ:we ARw E Baw € A 和 B} 
并 集 可 看 成 “4 或 者 B”. 如 果 Ay, 42,… 是 一 个 集合 序列 , 那么 


U=wea: 至 少 存在 一 个 i 使 得 w E Ai}. 


i=1 
A 和 B 的 交集 定义 为 


A()B={weQ: wE AH Hw € B}. 
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读 作 “4 X B”. 有 些 时 候 我 们 将 ANB 记 为 AB RH (A,B). 如 果 Ay, 42,… K 
示 某 一 集合 序列 , 那么 


Na = {we Q: 对 一 切 i PAw € Aj}. 
i=l 


集合 的 差 定义 为 4 一 B= {w : we Aw ¢ B}. 如 果 集合 4 中 的 元 素 都 包含 在 
集合 B 中 , EH ACB 或 者 BDA. 如 果 集 合 4 是 有 限 集 , 则 令 |4| 表示 集合 A 
中 的 元 素 个 数 . 下 表 对 有 关 集 合 的 概念 进行 了 总 结 . 


有 关 集 合 的 术语 
2 样本 空间 
w 试验 结果 (点 或 者 元 素 ) 
4 事件 (0 的 子 集 ) 
AS 集合 4 的 余 集 (AE A) 
AUB 并 (4 或 B) 
ANBRAB 交 (A 和 B) 
A-B 集合 差 (w 属 于 4 但 不 属于 B) 
ACB 集合 包含 
Ø 零 事件 ( 永 不 为 真 ) 
Q 必然 事件 (永远 为 真 ) 


对 于 集合 序列 Ar 42,…, 若 ANA; = OG + j), 则 称 和 ,42，… 两 两 不 相交 
或 者 互 斥 . 例如 Ai = (0,1), Aa = [1,2), As = (1,2), … 就 是 两 两 不 相交 的 集合 序 
列 对 于 两 两 不 相交 的 集合 序列 An, 42,…, 车 OAc = Q, 则 An 4s,… 为 了 的 一 
个 划分 . 给 定 事件 A, 定义 A 的 示 性 函数 为 
1, wh 4， 
0, w 不 属于 A. 

如 果 集 合 序列 Ay, An 满足 Ar C Aa C …, 则 称 该 集合 序列 为 单调 递增 序 
列 , 单调 递增 序列 的 极限 定义 为 ,im An = Ü A 如果 集 合 序列 满足 Ay > Ap > 
ORE EAS ERE, 单调 道 减 序列 的 极限 定义 为 ,ja Ay = 由 As 
二 者 都 可 记 为 Ano A. as 

14 例 $ 0= RIFE, A = (0.1/8), 3, §=1,2,---, M A = 10,1), 


4i = {0}. UR A; = (0,1/0, Ü A: = (0,1), Ñ 4 = 2. 


Ia(w) =Iwe A) -{ 


oo 


i=1 
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事件 4 的 概率 可 通过 对 事件 赋予 某 一 实 值 P(4) 来 表示 ", P 称 为 概率 分 布 或 
者 概率 测度 . 概率 P 必须 满足 下 面 3 条 公理 : 


1.5 定义 函数 对 每 一 事件 赋值 P(A), 若 下 满足 下 面 3 条 公理 则 称 了 为 概率 
分 布 或 概率 测度 . 

公理 1 对 任意 事件 4 有 P(A) > 0; 

公理 2 P(O) = 1 

公理 3 如 果 Aj, A2,… HAZA, 则 


P (Ù a) = Sr(a). 


i=l i=1 


SEF PARE APE, 最 常见 的 两 种 解释 就 是 频率 或 者 可 信 度 . 在 频率 的 解释 中 ， 
PP 就 表示 重复 实验 中 事件 4 出 现 次 数 的 最 终 比例 例如, 在 抛 硬币 的 实验 中 , 出 现 
正面 的 概率 为 1/2 就 意味 着 当 抛 硬币 的 次 数 增加 时 , 出 现 正面 的 次 数 的 比例 就 趋 近 
于 1/2. 在 无 限 次 抛 硬币 过 程 中 , 就 像 几 何 里 面 的 直线 一 样 , 不 可 预测 的 抛掷 序列 之 
极限 比例 趋 于 常数 是 理想 化 的 . 在 可 信 度 的 解释 中 , P(A) 度量 观察 者 对 于 A 为 真 的 
信 度 . 无 论 是 哪 一 种 解释 , 公理 1 ~ 公理 3 都 必须 满足 两 种 不 同 的 解释 在 统计 推 
断 中 会 有 很 大 不 同 . 事实 上 , 两 种 不 同 的 解释 派生 出 了 统计 推断 中 的 两 个 学 派 : 频 
率 学 派 和 贝 叶 斯 学 派 , 本 书 将 在 第 11 章 详细 讨论 . 

从 3 条 公理 中 很 容易 推导 出 有 关 概 率 P 的 一 些 性 质 , 例如 ， 


P(2) =0, 
ACB -=P(A) < P(B), 
0<P(A) <1, 
P(A’) =1 — P(A), 


A()B=9> r (AUB) = P(A) + P(B). (1.1) 


下 述 引 理 给 出 了 关于 概率 的 另 一 个 并 非 显 而 易 见 的 性 质 . 
1.6 引 理 对 任意 事件 4 和 B， 


P (A U B) = P(A) + P(B) — P(AB). 


@ 如 果 样本 空间 很 大 , 如 整个 实 直线 , 对 每 一 个 事件 都 要 给 定 概率 就 非常 困难 了 . 因此 , 只 对 特定 的 集 类 
定义 概率 , 该 特定 的 集 类 称 为 o 代数 , 详 见 附录 . 
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证 明 记 4UB = (4B°)U(4B)U(4*B), 等 式 右边 的 三 个 事件 两 两 不 相交 
因此 , 利用 两 两 不 相交 事件 的 概率 可 加 性 可 得 


P (4U8) = P((aB) Us) Uaes) 
= P(AB°) + P(AB) + P(A°B) 
= P(AB°) + P(AB) + P(4°B) + P(AB) — P(AB) 
=P ((AB*) Uta) +P ((4°B) Uta) —P(AB) 
= P(A) + P(B) — P(AB). 
1.7 例 “在 连续 抛 两 次 硬币 的 试验 中 , 令 H 表示 在 第 1 次 出 现 正面 的 事件 ， 
He 表示 在 第 2 次 出 现 正面 的 事件 . 如 果 所 有 结果 都 是 等 可 能 的 , 则 PCH UH?) = 
P(H;) + P(H2) — P(HiH2) = 1/2+1/2 一 1/4= 3/4. 
1.8 定理 (概率 的 连续 性 ) 。 如 果 An A, 则 当 n> 00 时 ， 


P(An) > P(A). 

证 明 ”假定 An 是 单调 递增 序列 , MY Ay CA2 Co. 令 4= lim An = Ua. 
FEM By = Aj, Bo = {w E N : w E€ hw ¢ Ai}, BB = {wEQ: we Aow g Anu g 
A). 容易 证 明 By, Ba- 两 两 不 相交 , 对 一 切 n 有 An = Ùs Ùz n 
Ü B= Ü A (RIE 0) 由 公理 3 可 得 


P(An) =P (Ù a.) = SPB). 
i=1 i=1 
因此 , 再 利用 公理 3 就 可 得 到 
[Jim P(A) = slim, JPB) = Sre) =P 四 a) = 
i=1 i=1 i=1 
1.4 有 限 样本 空间 上 的 概率 


假定 样本 空间 Q = {w1,… ,wn} 有 限 ， 例 如 , 连续 将 一 颗 般 子 抛 两 次 , 9 就 
有 36 个 元 素 : Q = {(i,7j) : ij € {1,… ,6}}, 如 果 每 一 个 结果 是 等 可 能 的 , 则 有 
P(A) = |4|/36, 其 中 |4| 表示 集合 4 中 的 元 素 个 数 . 因为 只 有 两 种 可 能 满足 角子 点 
数 之 和 为 11, PORE RS AA 11 的 概率 就 是 2/36. 

如 果 Q 是 有 限 的 并 且 每 种 结果 都 是 等 可 能 的 , 那么 
lAl 


P(A) = ia’ 


1.5 独立 事件 5 


上 式 称 为 均匀 概率 分 布 . 为 求 得 概率 , 需要 计算 事件 4 中 包含 的 样本 点 . 计算 样本 
点 个 数 的 方法 称 为 组 合法 , 这 里 无 需 对 组 合法 进行 更 深入 的 讨论 . 计数 理论 在 后 面 
将 用 到 , 下 面 先 看 一 个 有 关 计 数理 论 的 例子 . 给 定 n 个 元 素 , 将 这 n 个 元 素 排序 共 
Ai nl = n(n 一 DD(n 一 2)……3.2.1 种 .为 方便 起 见 , 定义 0! = 1, 同时 定义 


n n! 
(i) -mm Ga 
读 作 “n 选 k”, 表示 从 n 个 元 素 中 选 k 个 元 素 的 方法 种 数 . 例如 , 某 班 有 20 个 学 
生 , 要 从 中 选 3 个 , 则 共有 


(3) 20! 20x 19 x 18 


3) ~ mi- 3xex1 ~ 240 


种 方法 , 组 合 数 有 如 下 性 质 ， 
()-@)- (=): 
1.5 独立 事件 


如 果 连 续 两 次 抛 一 枚 均匀 的 硬币 , 则 两 次 都 出 现 正面 的 概率 是 1/2 x 1/2, 之 
所 以 能 将 二 者 相 乘 是 因为 我 们 认为 这 两 次 抛 硬币 是 独立 的 , 有 关 独 立 的 正式 定义 如 
F: 


19 定义 如 果 下 式 成 立 , 则 事件 A 和 B 是 独立 的 ， 
P(AB) = P(A)P(B), (1.3) 


12H ALIB. 如 果 等 式 
卫 (nN a) = 工 P(4) 
ied ied 
对 所 有 了 的 子 集 I 都 成 立 , 则 事件 集 {4i :i ET} 是 独立 的 . 如 果 A fe BH 
È, 记 为 
AWB. 


独立 性 可 能 以 两 种 截然 不 同 的 方式 出 现 . 有 时 , 直接 假设 两 个 事件 是 独立 的 , 例 
如 , 在 连续 两 次 抛 一 枚 硬币 的 试验 中 , 通常 假设 每 次 抛 硬币 是 相互 独立 的 , 这 也 反映 
了 硬币 对 抛 第 一 次 没有 记忆 性 的 事实 ; 而 在 另外 一 些 时 候 , 需要 通过 证 明 PAB) = 
P(A)P(B) 来 推导 两 事件 的 独立 性 . 例如 , ZEB RF RBH, 令 A = {2,4,6}, 
B = {1,2,3,4}, W ANB = {2,4}, P(AB) = 2/6 = P(A)P(B) = (1/2) x (2/3), 所 以 
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说 4 与 BB 是 独立 的 . 在 本 例 中 , 并 没有 假设 4 与 B 是 独立 的 — 而 是 证 明 它 们 
是 独立 的 . 

假定 AG BERG, 并 且 每 个 事件 都 有 正 的 概率 , 它们 可 能 独立 吗 ? 答案 
是 否定 的 , 因为 P(4)P(B) > 0 而 P(AB) = P(2) = 0. 除 这 种 情况 外 , 没有 别 的 办 法 
来 判断 维 思 图 中 集合 的 独立 性 

1.10 例 ” 抛 一 枚 均匀 的 硬币 10 K. 令 4= “至少 出 现 一 次 正面 ”, 令 Tj 表示 
反面 出 现在 第 j 次 的 事件 . 从 而 


P(A) = 1 — P(4°) 
= 1 一 P( 全 是 反面 ) 
= 1-P(TiT2---Tio) 
= 1 — P(T1)P(T2) ---P(Tio) 


=1- (3) ~ 0.999. 


1.11 例 两 人 轮流 投篮, 第 1 个 人 投 进 的 概率 为 1/3, 第 2 个 人 投 进 的 概率 为 
1/4. 第 1 个 人 比 第 2 个 人 先 投 进 的 概率 是 多 少 ? 令 已 表示 所 关心 的 事件 . 令 A R 
示 在 第 7 轮 由 第 1 个 人 首次 投 进 这 一 事件 . 注意 到 A, 42,… 是 两 两 独立 的 , 并 且 
B= U Ay. 因此 


P(E) = 》 P(4;). 
j=l 
现在 有 P(A) = 1/3. Ao 表示 第 1 轮 两 人 都 没 投 进 , 第 2 轮 由 第 1 个 人 首次 投 
进 ， 其 概率 为 P(A) = (2/3)(3/4)(1/3) = (1/2)(1/3)， 以 此 类 推 可 求 得 P(4;) = 
(1/2}=}(1/3). 从 而 


OE 


这 里 用 到 公式 , 如 果 0 <r < 1, 那么 Èr =r*/(1-r). 
Ż 


独立 性 小 结 
1. AÑ B 是 独立 的 当 且 仅 当 P(AB) = P(A)P(B). 
2. 独立 有 时 用 于 假设 而 有 时 需要 推导 . 
3. 正 概率 的 互 斥 事件 不 可 能 是 独立 的 - 
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1.6 条 件 概率 
假设 P(B) > 0, 定义 在 B 发 生 情况 下 4 的 条 件 概率 如 下 ， 


1.12 定义 如 果 P(B) > 0, 则 4 在 已 下 的 条 件 概率 为 


P(AB) 


P(AIB) = Boy 


(1.4) 


P(A|B) 可 认为 是 A, B 同时 发 生 次 数 占 B 发 生 次 数 的 比例 . 对 任意 固定 B 只 
E P(B) > 0, 了 (|B) 就 是 一 个 概率 测度 ( 即 它 满足 概率 的 3 条 公理 ) 也 即 PC4|B) > 
0,P(Q|B) = 1. 如果 Ai, 42，… EJE, W P(U AilB) = È PCA). 但 是 , 一 般 
P(A|BUC) = P(A|B) + P(A|C) 是 不 成 立 的 . 有 关 概 率 的 法 则 只 适用 于 竖 杠 左边 的 
事件 . 一 般 P(A|B) = P(B|4) 也 是 不 成 立 的 , 很 多 人 在 这 一 点 上 一 直 很 迷惑 . 举例 
来 讲 , 得 麻疹 时 身上 有 斑点 的 概率 是 1, 但 身上 有 斑点 时 得 麻疹 的 概率 并 不 是 1, 在 
这 个 例子 里 , P(AIB) 和 P(B|4) 的 差异 是 很 显然 的 , 但 是 在 有 些 情况 下 却 未 必 能 这 
么 显而易见 了 . 这 一 错误 在 法 律 案件 中 经 常 发 生 , 有 时 将 其 称 为 检察 官 雇 论 . 

1.13 例 疾病 DD 的 医学 检验 结果 可 能 为 + 和 一 , 它们 的 概率 如 下 : 


D D 
十 | 0.009 0.099 
— | 0.001 0.891 
由 条 件 概率 的 定义 可 得 
_ P+ND) 0009 
P(tID)= Ep) 一 0009+000T 一 09 
p(-|p9) = PENDI - 0891 -09. 


EDe 一 0.891 十 0.099 一 


显然 , 该 检验 是 相当 精确 的 , 对 患者 的 检验 结果 有 90% 呈 阳 性 , 而 对 健康 者 检验 结 

RA 90% 呈 阴 性 . 假定 去 作 检查 的 结果 是 阳性 , 患 这 种 病 的 概率 会 是 多 大 呢 ? 很 多 

人 认为 是 0.90, 而 正确 的 结果 是 

P(+ND) 0.009 
P(+) 0.009+0.099 


这 一 教训 说 明 要 通过 计算 去 获得 答案 而 不 要 相信 你 的 直觉 
下 述 引 理 可 直接 从 条 件 概 率 的 定义 得 到 . 


P(DI+)= 


= 0.08. 
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1.14 引 理 如 果 4 与 妃 是 相互 独立 的 事件 则 P(4|B) = P(4). 对 任意 两 事件 
ABA 
P(AB) = P(A|B)P(B) = P(B|A)P(A). 


根据 引 理 , 发 现 独立 性 的 另 一 个 解释 为 在 知道 B 的 情况 下 不 会 改变 A 的 概率 . 
公式 P(4B) = P(4)P(B|4) 有 些 时 候 对 计算 概率 很 有 帮助 

1.15 例 “从 一 副 扑 克 中 不 重复 抽取 两 张 牌 , 令 4 表示 第 一 次 抽取 的 牌 是 梅花 
A, 令 忆 表示 第 二 次 抽取 的 牌 是 红 桃 K. 则 P(AB) = P(A)P(BIA) = (1/52)(1/51). 


条 件 概率 小 结 
1. 如 果 P(B) > 0, 则 
P(AB) = P(A|B)P(B). 
2. 对 固定 的 B, P(-|B) 满足 概率 公理 , 但 一 般 地 , 对 固定 的 A, P(4|.) 不 满足 概率 
公理 . 
3. 一 般 地 , P(A|B) 4 P(B|A). 
4. 4 和 B 独立 当 且 仅 当 P(A|B) = P(A). 


1.7 贝 叶 斯 理论 
贝 叶 斯 理论 是 “专家 系统 ” 和 “ 贝 叶 斯 网 络 " 的 基石 , 有 关 RRRA A 


斯 网 络 " 将 在 第 17 章 详细 讨论 . 首先 来 给 出 一 个 最 基础 的 结论 . 
1.16 定理 (全 概率 法 则 ) A Al, A2,… ,Ak 是 NO 的 一 个 划分 , 则 对 任意 事件 


B, 
k 
P(B) = 》 P(BIA:)P(Ai). 


i=1 
证 明 定义 O = BA; 并 注意 到 Cl,… ELIE, B= Ù Cy. 由 条 件 概 
UL 
率 定义 知 P(BA;) = P(BIA;)P(A,), 因此 ， 
P(B) = DP(C) = PBA) = YO PBIA,)P(Ay)- 
j é i 


1.17 定理 ( 贝 叶 斯 定理 ) A A1,… ,Ak 是 的 一 个 划分 , 对 每 一 个 i 有 
P(4i) > 0, 如 果 P(B) > 0, RAF i=1,--- ,大 有 


P(BIA:)P(Ai) 


PAID) = SPEA PA 
j 


(1.5) 


1.18 注 HPK P(A) 为 4 的 先 验 概率 , 称 P(4i|B) 为 4 的 后 验 概率 . 
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证 明 ”由 条 件 概率 的 定义 以 及 全 概率 法 则 可 得 


_ P(AiB) _ P(BIAi)P(Ai) _ _P(BIA,)P(Ai) 
PAID = FB) = BiB) ~ FFB EC 
j 


1.19 例 我 将 自己 的 邮件 分 为 三 类 : A, = 垃圾 邮件 ”, A =“ 低 优先 级 邮件 ”， 
As =“ 高 优先 级 邮件 ”. 由 以 前 的 经 验 发 现 P(A) = 0.7,P(42) = 0.2,P(Ag) = 0.1. 
当然 满足 0.7+0.2+0.1 =1. $ B 表示 邮件 中 含有 单词 “free” 这 一 事件 , 由 以 前 的 
经 验 有 P(B|A41) = 0.9, P(B|A2) = 0.01, P(B|As) = 0.01.( 注 意 : 0.9+0.01 +0.01 4 1). 
我 收 到 了 一 封 邮件 其 中 含有 单词 “free”. 这 封 邮 件 是 垃圾 邮件 的 概率 为 多 少 ? 
由 贝 叶 斯 理论 可 求 得 
0.9 x 0.7 


P(AIB) = Gascon) + (0.01 x02) 4 001x01) 7 


1.8 文献 注释 


本 章 内 容 是 大 家 熟知 的 , 在 许多 教科 书 中 都 能 找到 其 详细 论述 . 比较 初级 
的 有 (DeGroot and Schervish, 2002); 中 等 难度 的 有 (Grimmett and Stirzaker, 1982; 
Karr, 1993); 高 级 教程 有 (Billingsley, 1979; Breiman, 1992). 笔者 从 (DeGroot and 
Schervish, 2002; Grimmett and Stirzaker, 1982) 两 本 著作 中 摘录 了 很 多 例子 和 
练习 . 


1.9 附 录 


一 般 地 , 对 样本 空间 O 中 的 所 有 子 集 都 赋 子 一 个 概率 是 非常 困难 的 . 然而 , 将 
注意 力 集中 在 称 为 c 代数 或 域 的 事件 集 上 , 它 是 一 个 集 类 A, 满足 如 下 性 质 ， 

人) BEA. 

(ii) # Ai, Aa E A, WO Ai c ASE 

i=1 

(iii) # A € A, WJ AS A. _ 

A 中 的 集合 称 为 可 测 的 , 称 (0,.4) 为 可 测 空间 , 如 果 P 是 定义 在 A 上 的 概率 
测度 , 则 (Q, A, P) 就 称 为 概率 空间 . 当 9 是 实 直线 时 , 设 4 表示 包含 所 有 开 集 的 最 
小 o 代数 , 称 它 为 Borel o 域 


1.10 J 题 


1. 给 出 定理 1.8 的 证 明细 节 并 证 明 单 调 递减 的 情形 . 
2. 证 明 公式 (1.1). 


10 FI 概 率 


3. 令 9 为 样本 空间 Ar, 42,… 为 其 中 的 事件 定义 Ba = Ü Ai On = f Ai 
(a) WE By > By D+ Cy CO Css > F 
外 证 明 we Ñ Ba HERH w 属于 An 42,… 中 的 无 穷 多 个 事件 ; 


(c) WEH w € ou Cn MARY w 至 多 不 属于 A, 4A2,… 中 的 有 限 多 个 事件 . 
4.4 {Aii cI} = 系列 事件 , 其 中 工 是 任意 指标 集 . 证 明 


(ua) =(\4 和 (Qa) =U. 
ier iel ier ier 
提示 : 首先 证 明 对 指标 集 = {1,2,… ,n} 成 立 . 

5. 假设 抛 一 枚 均匀 的 硬币 直到 出 现 两 次 正面 为 止 . 试 描述 样本 空间 S. 求 需 要 抛 k 
次 的 概率 . 

6. $ Q = {0,1,…}. 证 明定 义 在 9 下 的 均匀 分 布 不 存在 ( 即 如 果 当 |4| = |B 有 
P(A) = P(B), 则 P 不 满足 概率 公理 ). 

7. 令 Aj, 42,… 表示 一 系列 事件 . 证 明 


P (5 An) < 六 pw) 


n=1 


提示 : 定义 Bn = An 一 m Ai. 然后 证 明 Bn 两 两 不 相交 且 总 An = au) Bn. 
8. 假设 对 所 有 i 有 P(4i) =1, 试 证 明 


(D4) 


9. 对 固定 B WE P(B) > 0, REH P(-|B) 满足 概率 公理 . 

10. 本 题 陈述 的 事件 读者 以 前 可 能 已 经 听 过 . 现在 请 用 严谨 的 推算 来 解答 此 问题 . 
这 个 著名 的 问题 就 是 “ 蒙 提 霍 尔 问题 " : 在 三 肩 门 中 的 某 肩 门 后 有 一 个 奖品 , 选 
中 这 扇 门 就 能 拿 到 门 后 的 奖品 . 你 选 定 了 其 中 一 扇 门 . 具体 说 , 假设 你 选择 了 1 
号 门 . 这 时 候 主持 人 蒙 提 霍 尔 打 开 其 他 两 房 门 中 的 一 肩 门 ， 你 看 到 门 后 没有 奖 
品 . 这 时 他 给 你 一 个 机 会 选择 要 不 要 换 另 外 一 扇 没有 打开 的 门 . 你 是 选择 换 还 
是 不 换 呢 ? 直觉 上 认为 换 不 换 无 关 紧要 . 然而 正确 答案 是 你 应 该 选择 换 , 请 证 明 
这 一 结论 . 此 问题 将 有 助 于 你 理解 样本 空间 和 样本 事件 . 记 9 = {(wr, wo) : wi € 
{1,2,3}}, 其 中 wi 表示 奖品 , we 表示 蒙 提 霍 尔 打开 的 门 . 

11. 假设 A, B 是 相互 独立 的 事件 , 证 明 AS, Be 也 是 相互 独立 的 事件 . 

12. 有 3 张 卡片 , 第 1 张 两 面 都 是 绿色 , 第 2 张 两 面 都 是 红色 , 第 3 张 一 面 绿色 一 面 
红色 . 随机 选择 一 张 卡片 并 随机 选择 其 中 一 面 (也 是 随机 的 选择 ). 如 果 这 个 面 
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为 绿色 的 , 那么 另 一 面 也 是 绿色 的 概率 是 多 少 ? 很 多 人 会 从 直觉 上 认为 概率 是 
1/2. 其 正确 的 结果 是 2/3. 请 证 明 此 结果 . 
. 假设 重复 抛 一 枚 均匀 硬币 直到 正面 和 反面 都 至 少 出 现 了 一 次 . 
(a) 请 描述 样本 空间 Q; 
(b) 需要 投掷 3 次 的 概率 为 多 少 . 
. WUE: 如 果 P(A) = 0 BRA P(A) = 1, W 4 和 其 他 事件 是 独立 的 ; 如 果 A 和 自 
身 独立 , 则 P(A) 的 值 为 0 或 者 1. 
. 一 个 孩子 的 眼睛 为 蓝 色 的 概率 为 1/4, 假设 任意 两 个 孩子 间 之 间 是 相互 独立 的 . 
考虑 一 个 有 3 个 孩子 的 家 庭 . 
(a) 已 知 至 少 有 一 个 孩子 的 眼睛 是 蓝 色 , 问 至 少 有 两 个 孩子 的 眼睛 是 蓝 色 的 概 
率 是 多 少 ? 
(b) 已 知 年 龄 最 小 的 孩子 的 眼睛 是 蓝 色 , 则 至 少 有 两 个 孩子 的 眼睛 是 蓝 色 的 概 
率 是 多 少 ? 
16. 证 明 引 理 1.14. 
17. 试 证 


a 
名 


= 
> 


a 
a 


P(ABC) = P(A|BC)P(B|C)P(C). 


18. 假设 k 个 事件 构成 样本 空间 9 的 一 个 划分 , 即 它 们 两 两 不 相交 且 ú Ay = 2. 
假设 P(B) > 0, 证 明 如 果 P(Ai|B) < P(41), WYA P(4i|B) > P(A) 对 某 
ie {2,… ,大 } 成 立 . 

19. 假设 30% 的 计算 机 用 户 使 用 Macintosh, 50% 的 使 用 Windows, 20% 的 使 用 
Linux. 假设 65% 的 Mac 用 户 感染 了 某 种 计算 机 病毒 , 82% 的 Windows 用 户 感 
染 了 这 一 病毒 , 50% 的 Linux 用 户 感染 了 这 一 病毒 . 随机 选择 一 个 用 户 , 发 现 她 
的 系统 感染 了 这 种 病毒 , 她 是 Windows 用 户 的 概率 为 多 少 ? 

. 盒子 里 面 装 有 5 枚 硬币 , 每 枚 硬币 出 现 正面 的 概率 都 不 一 样 , 令 p1,… ,ps 分 别 
表示 每 枚 硬币 出 现 正 面 的 概率 . 假设 


2 


Ss 


re ne es 人 
pı =0, La P =z m= ps =1. 


令 H RARE “HEH” , Ci 表示 第 ; 枚 硬币 被 选中 这 一 事件 . 

(a) 随机 选择 一 枚 硬币 投掷 . 假设 正面 出 现 了 , RE i(i = 1,… ,5) 枚 硬币 被 选 
中 的 后 验 概率 为 多 少 ? B, 对 i = 1,… ,5 分 别 求 P(Ci|H). 

(b) 再 一 次 投 搓 这 枚 硬币 , 问 又 出 现 正面 的 概率 为 多 少 ? BYR PHH), 其 中 
Hj = “第 7 次 投掷 出 现 正面 … 
假定 试验 按照 下 述 方式 进行 : 随机 选取 一 枚 硬币 投掷 直到 出 现 正面 

(©) R P(Ci|Ba), 其 中 Bs = “在 第 4 次 首次 出 现 正面 … 
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21. (计算 机 试验 ) 假设 一 枚 硬币 正面 朝 上 的 概率 为 p， 如 果 投 掷 硬币 多 次 , 则 希 
望 出 现 正面 次 数 的 比例 很 接近 p. 假设 p = 0.3,n = 1000, 如 果 将 硬币 抛掷 
1000 次 , 画 出 硬币 正面 朝 上 的 概率 的 散 点 图 (概率 是 n 的 倍数 ). BS p= 0.03 
的 情况 . 

22. (计算 机 试验 ) 假设 抛 一 枚 硬币 n 次 ， 了 表示 正面 朝 上 的 概率 , 令 X 为 出 现 正面 

的 次 数 , 称 X 为 二 项 随机 变量 , 将 在 下 一 章 讨论 . 直觉 上 判断 x 将 接近 np, 为 

验证 这 是 否 正确 , 可 以 重复 该 实验 多 次 并 取 X 的 均值 进行 一 次 模拟 并 比较 X 

的 均值 与 np 的 差别 , Xt p= 0.3 和 n= 10,m = 100,n = 1000 分 别 作 上 述 练习 . 

(计算 机 试验 ) 这 里 介绍 模拟 条 件 概率 的 试验 ， BRRR SMB, 令 

A = {2,4,6}, B = {1,2,3,4}, JATT P(A) = 1/2, P(B) = 2/3,P(AB) = 1/3, 因为 

P(AB) = P(A)P(B), 所 以 事件 4 和 B 是 独立 的 . 模拟 该 试验 并 验证 P(AB) = 

P(A)P(B), 其 中 P(A) 表示 模拟 中 4 发 生 的 比例 , P(4B) 和 B(B) 的 含义 以 此 类 

HE. 现在 再 找 两 个 不 独立 的 事件 4 和 B, 计算 P(A),P(A), P(AB), 将 其 值 与 理论 

值 比较 . 给 出 结论 并 解释 . 
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2.1 引 言 


统计 学 和 数据 挖掘 都 跟 数据 有 关 . 怎么 将 样本 空间 和 事件 同 数据 联系 起 来 呢 ? 
这 条 联系 的 纽带 就 是 随机 变量 . 


2.1 定义 随机 变量 即 映射 


X:Q>R, 
该 映射 对 每 一 个 输出 w 赋予 实 值 Xw). 


在 绝 大 多 数 概率 课程 里 面 , 样本 空间 很 少 被 提 及 , 而 直接 从 随机 变量 着 手 . 但 读 
者 应 该 清楚 样本 空间 是 确实 存在 的 , 它 位 于 事件 的 背后 . 

2.2 例 “ 抛 一 枚 硬币 10 次 , 令 X(w) 表示 序列 中 正面 出 现 的 次 数 . 例如 , 如 果 
w= HHTHHTHHTT, i} X(w) = 6. 

2.3 例 2Q={(2,y):22 +y? <1} 表示 单位 圆 盘 . 考虑 在 中 随便 选取 一 
点 . (在 后 面 将 精确 化 这 一 思想 ), 选取 的 结果 具有 形式 w = (z,y). 随机 变量 的 例子 
wm X(w) =2,Y(w) =y,Z) = £ +y URW) = Ve? +y. 

给 定 随机 变量 X 和 实 直 线 的 子 集 A, EX X-A) = {w EN: X(w) € 4} 并 令 


P(X € A) = P(X~1(A)) = P({w € 2: X(w) € A}), 
P(X = 2) = P(X~\(z)) = P({w E€ 2: X(w) = z}). 


注意 其 中 的 X 表示 随机 变量 而 z 表示 X 的 某 一 特定 的 值 . 

2.4 例 “” 抛 一 枚 硬币 两 次 , 令 六 表示 出 现 正面 的 次 数 . 则 P(X = 0) = P({TT}) = 
1/4,P(X = 1) = P({HT,TH}) = 1/2,P(X = 2) = P({HH})= 1/4. 该 随机 变量 及 
其 分 布 可 概括 如 下 : 

w P({w}) X(w) 


TT 14 o z Mma 
0 IA 
TH 1/4 1 1 T2 
HT 14 1 zÑ 
HH 14 2 
请 读者 完成 投掷 n 次 的 情形 . 


O 从 专业 角度 讲 , 随机 变量 必须 可 测 , 详 见 附录 - 
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2.2 分 布 函数 和 概率 函数 


给 定 随机 变量 X, 定义 它 的 累积 分 布 函数 (分 布 函数 ) 如 下 : 
2.5 定义 累积 分 布 函数 , 或 CDF, 表示 函数 Fx :及 一 [0,1], 其 定义 为 


Fx(z) = P(X < z). (2.1) 


在 后 面 将 看 到 CDF 包括 了 随机 变量 的 所 有 信息 , 有 时 用 PF 代替 Fx 来 表示 
CDF. 

2.6 Bl PESHEN, 令 X 表示 出 现 正面 的 次 数 . 则 P(X=0)= 
P(X = 2) = 1/4, P(X = 1) = 1/2. 其 分 布 函数 为 
0, «<0, 
1/4, 0<2<1, 
3/4, 1<2<2, 
1 z>2. 


虽然 这 个 例子 很 简单 , 但 仍 有 必要 认真 的 研究 它 . CDF 是 很 有 迷惑 性 的 . 注意 , 即使 
随机 变 基 仅仅 取 值 为 0, 1, 2. 但 对 所 有 的 z 该 函数 都 满足 右 连续 , 非 减 . 读者 是 否 
明白 为 什么 Ex (1.4) = 0.75 W? CDF 如 图 2.1 所 示 . 


Fx(z) = 


Fx) 


图 2.1 连续 两 次 抛 硬币 的 CDF( 例 2.6) 


如 下 结论 表明 CDF 完全 决定 了 随机 变量 的 分 布 . 

2.7 定 理 4 X th CDF 4 F, Y 的 CDF 为 G, RAMA sA F(x) = G(z)， 
则 对 所 有 A 都 有 P(X € A) =P(Y € A) °. 

2.8 定理 ”从 实 直线 映射 到 [0,1] 的 函数 FP 是 某 个 概率 PH CDF 当 且 仅 当 
下 满足 下 列 3 个 条 件 : 


@ 严格 意义 上 讲 , 仅 指 对 所 有 可 测 集 4 有 P(X € A) =P(Y € A). 
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(i)F 是 非 降 的 : zl < zz 意味 着 F(z1) < F(z2). 


(i)F 是 规范 的 : 
„im Fle) =0 
A 
jim F(x) =l. 
(iF 是 右 连续 的 : F(z) = F(z+) 对 所 有 z 成 立 , 其 中 ， 
F(z+) = jim Fly). 
pe 


证 明 fit F Æ CDF. 首先 证 明 (iii) 满足 . + z 为 一 实数 , y1,y2,… 为 一 系 
列 实数 满足 y > yo > …, FH limy; = z. 令 hi = (—00, yi], A = (-co,z]. 注意 到 


A= Ñ Ai 并 且 Ar D Aa >…, 即 事件 是 单调 的 , 所 以 lim P(A.) = P( Ai). 于 是 
F(a) = Ore 人 n a) = lim P(A) = lim F(y) = F(z+). 


(i) 和 (ii) 的 证 明 类 似 . 反方 向 的 证 明 一 一 若 下 满足 (i), (ii) 和 (ili), 则 它 是 某 
个 随机 变量 的 CDF 一 一 在 分 析 中 需 借助 先进 的 理论 工具 . 


2.9 定义 FOR X RAAT RAH MH {21,12}, WX 是 离散 的 , 定义 X 的 概 
率 函 数 或 概率 密度 函数 为 fx(z) = P(X = z). 


因此 ,对 ze 民有 jfx(z) >0 并 且 守 fr(zi)=1. 有 时 用 了 代替 fx. XX 的 CDF 


和 fx 的 关系 如 下 : 
Fx(z) =P(X <2) = fx(zi). 


ake 
2.10 BY i) 2.6 中 的 概率 函数 是 
1/4, z y 
_ j] 1/2, z=1, 
fx(z) = ia 2=2, 
0, Kfe, 


见 图 2.2. 


O 如 果 集 合 有 限 或 者 能 与 整数 建立 一 对 一 的 关系 , 则 集合 是 可 数 的 . 偶数 、 奇数 和 有 理 数 都 是 可 数 的 ; 在 
0 到 1 之 间 的 实数 就 是 不 可 数 的 . 
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0 1 2 


图 2.2 连续 两 次 抛 硬币 实验 的 概率 函数 (P 2.6) 


2.11 定义 RABKIN fx 对 所 有 有 7xta) > 0, /jx(z)dz = 1 并 
且 对 任意 a<b 有 


b 
P(a < X <b) = [ fx(z)dz, (2.2) 
则 随机 变量 X 是 连续 型 随机 变量 . 函数 fx 称 为 概率 密度 函数 (PDF). LA 
Fe(e)= Wa 


以 及 fx(z) = Fy (a) 在 Fx 可 微 的 点 均 成 立 . 


有 时 用 [sear 或 者 f ARR SE Ode. 


2.12 例 假设 XX 的 PDF 为 


显然 , fx(z) > 0 且 J Jx(z)dz = 1. 具有 这 种 密度 的 随机 变量 称 它 服从 (0,1) 均匀 
分 布 . 其 含义 就 是 从 0 到 1 之 间 随 机 选取 一 点 . CDF 为 


0, z<0, 
Fx(7)= $4 z, 0<2<1, 
1, #>1, 


见 图 2.3. 
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F(x) 


0 1 x 


图 2.3 (0,1) 均匀 分 布 的 CDF 


2.13 例 假设 X 的 PDF 为 


fle) { 0, rz<0, 
z)= 1 

ara Rfb 
因为 f fade 一 上 所 以 fle) 确实 是 一 个 PDF 


注意 ! 连续 型 随机 变量 可 能 产生 迷惑 . 首先 , 如 果 X 是 连续 的 则 对 任意 = 有 
P(X = 2) = 0. 不 要 将 f(z) 看 成 是 P(X = 2), 这 仅 对 离散 随机 变量 成 立 . 在 连续 情 
形 下 通过 求 PDF 的 积分 得 到 概率 . PDF 可 以 大 于 1( 而 离散 型 随机 变量 的 概率 密度 
函数 不 会 ) 例如 , 如 果 f(z) = 5,2 e [0.1/5], 其 他 情形 下 f(z) 为 0, 则 f(z) > 0 并 
且 J f(z)dz = 1, 所 以 即使 在 某 些 点 f(z) = 5, 它 仍然 是 一 个 PDF, 事实 上 , PDF 
可 以 是 无 界 的 . 例如 , 如果 当 0 < z < 1 时 , f(z) = (2/3)z-Ys, 在 其 他 点 f(z) = 0, 
则 7 是 无 界 的 但 仍 满足 J f(a)dx =1. 


2.14 例 > 


0, 2Z<0， 
-| oo 
1+’ 


该 函数 不 是 PDF, 因为 fros = sa dz/(1+2) = f düa = ta(08) = 00. 
2.15 引 理 A F AMARE X t CDF, 则 
1. P(X =2) = F(a) — F(z-), 其 中 , F(z )= lim F(y). 


2. P(a < X < y) = Fly) - F (2). 
3. P(X > 2) =1 — F(z). 
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4. 如 果 X 是 连续 的 , 则 
F(b) — F(a) = P(a < X <b) =P(a < X <b) 
=P(a< X <b) =P(a < X <b). 
下 面 定 义 CDF 的 逆 (或 分 位 数 函数 ). 


2.16 定义 A X 为 一 个 随机 变量 , 其 CDF H F, 道 CDF 或 分 位 数 函数 定义 
为 9 


F(q) =inffz:F(z) > q}, 


其 中 ,ge [0,1]. 如 果 已 严格 递增 并 且 连 续 则 Fa) 是 满足 F(x) =q 的 唯一 实 
数 z. 


称 F-1(1/4) 为 第 一 分 位 数 , -1(1/2) 为 中 位 数 , F-*(3/4) 为 第 三 分 位 数 . 

如 果 Fx(z) = Fy(z) 对 所 有 z 成 立 , 则 两 个 随机 变量 X 和 Y 是 同 分 布 的 , 记 
WX ALY, 这 并 不 是 表示 X ALY 是 相等 的 , 它 表 示 所 有 关于 X ALY 的 概率 陈述 
是 相同 的 . 例如 , 假设 P(z = 1) = P(x = -1) = 1/2, 令 了 = -X, 则 P(Y = 1) = 
P(Y = -1) = 1/2, A X SY, 但 是 X ALY 并 不 相等 , 事实 上 , P(X = Y) = 0. 


2.3 一 些 重要 的 离散 随机 变量 


注意 符号 ! 通常 用 X ~ 表示 X 服从 分 布 F. 因为 符号 ~ 常用 来 表示 近似 ， 
所 以 用 该 符号 表示 分 布 并 不 合适 , 但 符号 X ~ 已 被 大 家 接受 .X ~ F E X 服 
从 分 布 F” 而 并 不 是 “X 与 近似 ”. 

BRD 仅 在 一 个 点 a。 上 有 概率 密度 , TH X ~ ôa 即 P(X = a) =1, 那 么 


0, < 
F(z) = can 
1, z2a. 


概率 密度 函数 在 z= a 处 f(x) = 1, 其 他 情形 下 为 0. 
离散 均匀 分 布 ” 令 上 > 1 为 给 定 的 整数 , 假设 X 具有 如 下 概率 密度 函数 : 


S 1/k, z=1,.…,k, 
re) ={ a ee 


则 称 X 在 {1,… ,有 上 服从 均匀 分 布 - 
© 如 果 读 者 对 “int RAS, 可 把 它 看 成 是 求 最 小 , 即 min. 
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伯 努 利 分 布 令 X 表示 抛 硬币 的 结果 , 结果 用 0,1 表示 M P(X = 1) = p, 
P(X = 0) =1—p, 其 中 pe [0,1], 称 X 服 从 伯 努 利 分 布 , 记 为 XX ~ Bernoulli(p). 概 
率 函数 为 f(z) = p*(1—p)*, HH ze {0,1}. 

二 项 式 分 布 ”假设 抛 一 枚 硬币 出 现 正面 的 概率 为 p, 其 中 0 < p < 1. 将 这 枚 硬 
Mii nK, 令 X 表示 出 现 正面 的 次 数 , 假设 每 次 抛 是 相互 独立 的 , 令 f(z) = P(X = 
z) 为 概率 密度 函数 , 易 得 


M -z = ... 
n| Fees seem 
0, 其 他 . 


具有 上 述 概率 密度 函数 的 随机 变量 称 为 伯 努 利 随 机 变量 , 记 为 X ~ Binomial(n, p). 
若 X ~ Binomial(ni, p), X2 ~ Binomial(n2, p) 并 且 独 立 , 则 X1+X2 ~ Binomial(ni + 
n2,p) 

注意 ! 现在 来 排除 一 些 疑惑 ，X 是 随机 变量 ;> 表示 随机 变量 一 个 特定 的 
值 ; n Ap 是 参数 , 也 即 是 固定 实数 . 参数 p 通常 未 知 ， 需要 根据 数据 去 估计 , 这 
就 是 统计 推断 要 完成 的 事情 . 在 多 数 统计 模型 中 , 既 有 随机 变量 ， 又 有 参数 . 不 要 
把 它们 混淆 了 . 

几何 分 布 ”如 果 


P(X =k)=p(l—p)**,  k=1,2,3,---, 


WX 服从 参数 为 pe (0,1) 的 几何 分 布 , 记 为 X ~ Geom(p). 对 于 几何 分 布 
二 
re =k) =P p(t = Geno 


X 可 看 成 是 抛 一 枚 硬币 直到 出 现 一 次 正面 为 止 所 需要 抛 的 次 数 . 
泊 松 分 布 ”如 果 


: 
Joze 230, 


则 X 服从 参数 为 和 的 泊 松 分 布 , 记 为 X ~ Poisson(A). 易 见 
Èro = oe =e e* =1. 


泊 松 分 布 常用 于 罕见 事件 的 计数 ， 如 放射 性 元 素 的 衰变 和 交通 事故 . 如 果 X ~ 
Poisson (A1), X2 ~ Poisson(A2) 且 独 立 ， 则 Xı + X2 ~ Poisson(Xi + A2)- 

注意 ! 定义 随机 变量 为 样本 空间 O 到 R 的 映射， 但 在 上 面 的 分 布 中 并 未 提 
及 样本 空间 ， 正 如 之 前 提 到 的 那样 , 桩 本 空间 经 常 “消失 ”， 但 它 却 实 实在 在 地 
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存在 于 背后 .下 面 对 伯 努 利 分 布 构造 一 个 样本 空间 , 令 Q = [0,1] 并 定义 P 满足 
P((a, ]) =b- a, 其 中 O<a<b<1. 固定 pe [0,1] 并 定义 
X(w) = { 1, w<p, 
0, w>p. 
ATI P(X = 1) = Pw < p) = P((0,p]) = p H P(X = 0) =1-p. URERÉ X ~ 
Bernoulli(p). 对 所 有 的 分 布 都 可 以 通过 上 述 方式 进行 定义 . 在 实际 中 , 将 随机 变量 
看 成 是 一 个 随机 数 , 但 从 严格 意义 上 讲 , 它 是 定义 在 样本 空间 上 的 一 个 映射 . 


2.4 一 些 重要 的 连续 随机 变量 
均匀 分 布 如 果 


f(x) = — z € [a,b], 
0, 其 他 ， 
IU X HRA (a,b) 上 的 均匀 分 布 , 记 为 X ~ Uniform(a, b), 其 中 , a < b. 均匀 分 布 的 分 
布 函数 为 


0, rT<a, 
F(z) = 1 F—*, Telat 
1, z>b. 


正 态 (高 斯 ) 分 布 ”如果 
1) = evox {-sin(e-u)}, ZER, (2.3) 


W X RAZZ uA o 的 正 态 (高 斯 ) 分 布 , A X ~ N(u,0?), EF u ER, o > 0. 
参数 u FEAT “HU” (H), o 是 分 布 的 散布 程度 (标准 差 ), (均值 和 标准 差 将 
在 下 一 章 正 式 定义 ). 正 态 分 布 在 概率 和 统计 中 扮演 着 重要 的 角色 , 许多 自然 现象 可 
以 用 正 态 分 布 来 近似 . 后 面 , 将 研究 中 心 极限 定理 , 它 表明 随机 变量 和 的 分 布 可 以 用 
正 态 分 布 来 近似 . 

WR p = 0%c = 1, 则 称 X 服从 标准 正 态 分 布 , 标准 正 态 分 布 随机 变量 常用 2 
表示 , 标准 正 态 分 布 的 PDF 和 CDF 分 别 记 为 9(z) 和 (z), PDF 见 图 2.4, 5 不 存 
在 近似 表达 式 . 下 面 是 正 态 分 布 的 一 些 性 质 . 

(i) MR X ~ N(u,0?), W Z = (和 -站 /~ N(O,1). 

(ii) MR Z ~ N(O,1), W X =p+0Z ~ N(u,0?). 

(iii) 如 果 Xi ~ N(ui,0?),i=1,--- n 且 相 互 独立 , W 
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2 +1 0 1 2 


图 2.4 标准 正 态 分 布 的 密度 函数 


i=l 


根据 (i) 18, WR X ~ N(u,0?), 则 


Pa<x<d-P (SZÉ <z<17E st) 


b-p a-p 
| 
从 而 , 只 要 能 够 计算 标准 正 态 分 布 得 CDF 5(z), 就 可 以 计算 任何 概率 . 所 有 的 
统计 计算 包 都 能 计算 D(z) 和 D-a). 以 前 的 统计 教科 书 有 8(z) 的 数值 表 (本 书 
BA). 
2.17 Bl {REL X ~ N(3,5), R P(X > 1) 的 值 . 


P(X >1)=1-P(X<1)=1- e(z < 12) = 1 — (—0.8944) = 0.81, 


FER q = O-1(0.2), 这 就 意味 着 要 求 q 使 得 P(X < q) = 0.2, 即 
0.2=P(X <q) =?(z< a= S54) = (S54), 


通过 查 正 态 表 得 4(—0.8416) = 0.2, 因此 ， 
-0.8416 = :一 上 = q-3 
o 


易 得 g = 3 — 0.8416 V5 = 1.1181. 
指数 分 布 如 果 
f(z)= go, z>0, 


“TX 服从 参数 为 8 的 指数 分 布 , 记 为 X ~Exp(B), 其 中 , 6 > 0. 指数 分 布 用 于 电子 
元 件 的 寿命 和 两 次 罕见 事件 之 间 的 等 待 时 间 . 
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名 马 分 布 对 > 0, MIEREA To) = [yee ray. mR 


f(z) = ria ze 一 le-z=/6， z>0, 


WX ARM BON a M B HIME, 72 X ~ Gamma(a, 8) 其 中 a, 6 > 0. 指数 分 
布 函数 即 为 Gamma(1, 8) 分 布 . 如 果 Xi ~ Gamma(a;, 6) 且 相 互 独立 ， Ex 人 
Gamma( È ai; B) 

NEN 如 果 


L(a + p) a- Ë 
f(z) = Tara)” 1-2), O0<2<1, 


则 XX 服从 参数 a > 0 Al 6 > 0 的 贝塔 分 布 , 记 为 XX ~ Beta(a, 3). 
tA fort GA 如 果 


v+1 
Cr i 


3) (1+ 22/v) t+? 


TW X RAH HEN v H tati, 记 为 和 ~ 也 ,tt 分布 的 概率 密度 函数 图 形 与 正 态 分 
布 的 概率 密度 函数 图 形 类 似 , 但 前 者 尾部 较 重 . 事实 上 , 正 态 分 布 相当 于 v = co AY t 
分 布 . 柯 西 分 布 是 上 分布 的 一 种 特殊 情形 , 它 相当 于 自由 度 v = 1 的 t 分 布 . 柯 西 分 
布 的 密度 函数 为 
1 
f(z)= wate)’ 


可 以 验证 上 述 函 数 的 确 是 一 密度 函数 


广 f(z)dz “Fars if” darctan(a) 


= Llaretan(o0) — arctan(—00)] = = 5 -(-3)]=1 


X2 分 布 如 果 


ja)-le-z/2， y 
fe) = Tora 3 


SU X 服从 自由 度 为 p 的 x? 分 布 , 记 为 X ~ xp. 如 果 Zio Zp 是 独立 标准 正 态 
P 
随机 变量 , 则 La ~X 
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2.5 二 元 分 布 


给 定 两 个 离散 随机 变量 X MY, 定义 其 联合 密度 函数 为 f(z,y) = P(X = 
z 和 了 = y). 从 现在 起 , 将 P(X = z 和 Y = y) 记 为 P(X = z,Y = y); 当 想 表述 
得 更 加 清楚 时 ;将 f 记 为 fxy- 

2.18 例 ”如 下 是 取 值 为 0, 1 的 两 个 随机 变量 义 ,Y 的 二 元 分 布 : 很 明显 , f(1, 1) 
=P(X =1,Y = 1) = 4/9. 


Y=0 Y=1 
X= 1/9 2/9 | 1/3 
X=1 2/9 4/9 2/3 
1/3 2/3 i 


2.19 定义 在 连续 情形 下 , 称 f(x,y) 为 随机 变量 (X,Y) 的 PDF, 如 果 
(i) 对 于 所 有 的 (x,y) 有 f(z,y) > 0. 

(ii) So Seo F(a, y)dady = 1. 

(iii) 对 任意 集合 ACR xR, P((X,Y) € A) = f J, f(z, y)dzdy. 


在 离散 或 连续 情形 下 , 定义 联合 CDF 为 Froy(z,y) = P(X $ 2,¥ <y). 
2.20 Bl 令 (X,Y) 为 单位 正方 形 上 的 均匀 分 布 , 则 


f(z,y) -{ 


1, 0<z<1,0<y<1, 
0， 其 他 . 
计算 P(X < 1/2,Y < 1/2). RE A = {X < 1/2,Y < 1/2} 是 单位 正方 形 的 一 个 子 
集 , 通过 对 f 在 子 集 上 求 积分 可 得 4 的 面积 是 1/4, 从 而 , P(X < 1/2,Y < 1/2) = 
1/4. 

2.21 例 S (X,Y) 具有 密度 函数 

_j arty 0O<z<1,0<y<1, 

| 0, 其 他 ， 


[ [ervey =[ (fia) f° ( [ vz) 


11 k 1,1 
=f wtf ydy=5+5=1. 

2.22 例如 果 分 布 定义 在 非 矩 形 区 域 , 则 以 上 的 计算 就 会 有 点 儿 复杂 . 这 里 借 
用 了 (DeGroot and Schervish, 2002) 中 的 一 个 例子 , 令 (X,Y) 具有 密度 函数 


_f œu ?<y<l, 
renf 0， 其 他 . 


则 
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首先 注意 其 中 -1 < z < 1. 现在 计算 c 的 值 , 这 里 需要 特别 关注 的 就 是 积分 的 范围 ， 
选 定 一 个 变量 , 如 z, 让 z 在 其 取 值 范围 内 变动 , 对 于 每 个 固定 的 z, 令 y 在 它 的 范 
围 内 变动 , Bi z? < y < 1, 图 2.5 有 助 于 读者 理解 . 


» y 


图 2.5 
灰色 部 分 是 区 域 r2 <y <1, 该 区 域内 密度 是 正 的 . 其 中 网 格 线 区 域 是 事件 X >Y, 与 z2 <y < 1 的 交集 


FE, 
1= f f teninde =e ff 2% vavas 
=e f'a (fh iy) dr = cf 2 


因此 , c = 21/4. 现在 来 计算 P(X > Y), 相应 的 集合 为 A= {(z,y) :0 < z < 1,z? < 
y < 2}( 读 者 可 以 通过 图 示 来 理解 ), 所 以 


P(X >Y) “tlh eww 2(fn ae 
ye 
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2.6 边际 分 布 
2.23 定义 ”如果 (X,Y) 具有 联合 密度 函数 fx,Y, UX 的 边际 概率 密度 函数 定 
义 为 
jx(z) =P(X =2) = PX=7Y=Y= Df(,y), (2.4) 
Y Y 
Y 的 边际 概率 密度 函数 定义 为 
fru) =PY =)=) P(X =2,Y =y) => f(y). (2.5) 


2.24 Pl ”假设 fxy 如 下 表 : 


SUX HOTS ATI EA, Y 的 边际 分 布 就 是 对 应 列 的 总 和 . 例如 , fx (0) = 
3/10, fx(1) = 7/10. 


2.25 定义 对 于 连续 随机 变量 , 边际 概率 密度 函数 为 
Ixa) = f feniu, fou) = {flea (2.6) 


相应 的 边际 分 布 函 数 记 为 Fx 和 Fy. 


2.26 Pl ”假设 
fxy = e+), 
其 中 zy >0, M fx(e) =e | * Ydy = e7, 
2.2709 B 


z+ 0<£<1,0<y<1, 


f(x,y) -{ R 其 他 . 


则 
1 1 1 
tw=/ etnas | siz + f ydz = 3 ty. 
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2.28 Bl $ (X,Y) 具有 密度 


21 
fly) = I7» P<y<, 
0, 其 他 . 


则 
1 
fx(z) = fien = ay 人 ydy = ae 一 z4)， 


其 中 , -1 < z < 1, 其 他 情况 下 fx(z) = 0. 


2.7 独立 随机 变量 
2.29 定义 如 果 对 于 任意 4 和 已 有 


P(X € A,Y € B) =P(X € A)P(Y € B), (2.7) 


则 称 随 机 变量 X fo Y 是 独立 的 , 记 为 X UY, SRA X 和 Y 是 相依 的 , 记 为 
XOY. 


原则 上 , 为 检验 两 个 随机 变量 X 和 Y 是 否 独立 , 需要 对 所 有 子 集 4 和 B WE 
等 式 (2.7). 值得 庆幸 的 是 , 对 于 连续 随机 变量 有 如 下 结论 . 事实 上 , 该 结论 对 离散 随 
机 变 基 也 是 成 立 的 . 

2.30 定理 AX 和 了 具有 联合 PDF fxy, AXIY 当 且 仅 当 fxy(z,y) = 
fx(ZT)fy(y) 对 所 有 x 和 3 成立 ?. 

2.31 例 S XAY RAMFAN: 


W fx (0) = fx(1) = 1/2, fy (0) = fy (1) = 1/2, IN fx(0)fy (0) = f(0,0), fx) fy (1) = 
F(0,1), fx (1) fy (0) = f(1,0), fx (1) fy (1) = f(1,1), MA X A Y Ehh, AB X 
AY 具有 如 下 联合 分 布 函 数 : 


Y=0 Y=1 

X=0 1/2 0 1/2 
X=1 | 0 1/2 1/2 
1/2 1/2 1 


O 该 陈述 并 不 严格 , 因为 密度 函数 可 以 在 零 测度 集 上 无 定义 . 
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W X 和 了 不 独立 , 因为 fx (0) fv (1) = (1/2)(1/2) = 1/4, 而 F(0, 1) = 0. 
2.32 例 ”假设 X 和 了 独立 并 具有 相同 的 密度 函数 


22, O<z<l, 
| ne ee 


试 计算 P(X +Y < 1) 的 值 . 根据 独立 的 性 质 , 容易 求 得 联合 密度 函数 为 


4zy，0< 和 zs 和 和 l0<sys<sl， 


jf(z,y) = fx(z)fy(y) = { 0， 其 他 


从 而 
P(X+Y <1) = J /fava 


2.33 定理 MiX 和 YY 的 范围 是 矩形 ( THAR ), 如 果 对 函数 9 AT 
一 定 是 概率 密度 函数 ) 有 f(x,y) =9(z)h(y) RÈ, RX 和 YY 是 独立 的 . 
2.34 例 令 X 和 YY 具有 密度 函数 


2e-(z+2), z>0,y>0, 


f(x,y) -{ ô. 其 他 . 


XAY 的 范围 是 矩形 (0, co) x (0,00), 可 以 将 f(z,y) 写成 f(x,y) = g(z)h(y) 的 形 
式 , 其 中 , g(x) = 2e-*, h(y) = e, Mit XOY. 


2.8 条 件 分 布 


如 果 X 和 YY 是 离散 的 , 则 可 以 计算 假设 已 观察 到 Y = y 情况 下 X 的 条 件 分 
Ai. 特别 地 , P(X = zlY = y) = P(X = z,Y = y)/P(Y = y). 从 而 有 如 下 条 件 概率 密 
度 函 数 的 定义 . 
2.35 定义 如 果 fy(y) > 0, 则 条 件 概率 密度 函数 为 


trv) = P(X = aly = y) = Peo) = Lael), 
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对 于 连续 型 随机 变量 , 采用 相同 的 概念 ?. 但 解释 不 同 . 在 离散 情形 下 , fxly (clu) 
表示 P(X = z|Y = y), 而 在 连续 情形 下 , 必须 通过 积分 求 得 概率 . 


2.36 定义 “对 连续 情形 , 假设 fy(y) > 0, 则 条 件 概率 密度 函数 为 


fx,r(7,Y) 
fr(y) “ 


fxlr (aly) = 


从 而 
P(X € AY =y) = [tev y)dz. 


2.370) A XA Y 服从 单位 正方 形 上 的 联合 均匀 分 布 , AT 0 <2 <1 时 
fxy (zy) = 1, 其 他 情形 下 fx,y(z,y) = 0, MAE Y =y, X 服从 Uniform(0,1). 记 
为 XIY = y ~Uniform(0,1). 

从 条 件 密度 函数 的 定义 看 出 ,fx,Y (zy) = fxi (ely) fy(y) = fyix(ylz) fx (7), 
该 等 式 在 有 些 情况 下 会 用 到 , 如 例 2.39. 

2.88 例 令 ( -{ z+y 0<2<l10<y<l, 

f(z,y) = 0, 其 他 . 
OR P(X < 1/4|lY = 1/3) 的 值 . 从 例 2.27 知 , fy (y) = y + (1/2), 因此 ， 
fxy(ay) _ T+Y 
fy) y+1/2" 


a 1 
)= fw (la) 
_ fè z+l/3 ，_ 1/32+1/12_11 
-f 173+ 1/2 7 1/3+1/2 80 
2.39 例 “假定 XX ~Uniform(0,1), 当 随机 变量 X 取 某 值 z 时 , 得 出 了 IX = 2 ~ 
Uniform(z, 1), 试问 Y 的 边际 分 布 是 什么 ? 首先 从 已 知 易 得 


Po- 人 veaeh 


fxlr (zly) = 


所 以 ， 


wi 


0， 其 他 


1 
fyix(ylz) = { 1-2’ 
0, 


O<2r<y<l, 
其 他 . 


© 这 里 陷入 了 困境 , 当 计算 连续 情形 下 P(X € AY = y) 时 ， 基于 概率 为 0 的 事件 {Y = y}, 这 里 可 以 
使 用 PDF 来 避免 这 一 问题, 事实 上 , 在 高 等 课程 里 面 ， 对 这 种 情形 有 明确 的 定义 , 这 里 ,只 简单 将 其 看 成 是 一 
个 定义 . 
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所 以 有 
1 
fxy(0,u) = frix(vle)fx(e)= 4 Toa’? 9S* <9 Sh 
0， 其他. 


从 而 得 的 边际 分 布 函数 为 


ia 
ON dz =-/ "du 2 anay), 0<y<1. 


l-z u 


2.40 例 考察 例 2.28 的 密度 函数 , R frlx(ylz). 4 X = z 时 , y 必须 满足 
z2 <y <1. 从 前 面 的 计算 也 发 现 fx(z) = (21/8)z2(1 — z), 因此 , 当 z2 <y gl1 时 


_ fy) Ud)ry 2 
frix(ylz) = fx(z) ~ (21/8)e2 — 24) 1-77 


FRR P(Y > 3/4|X = 1/2) 的 值 , 首先 求 出 fyjx(y|1/2) = 32y/15, 从 而 ， 
3 1 s 1 1 32y 7 
P(y> ix=3) = 人 (vig) av= f Bure 
2.9 ”多 元 分 布 与 独立 同 分 布 (IID) 样本 
S X = (Xr, Xn), 其 中 ,Xi1,… ,Xn 为 随机 变量 , 则 称 X 为 随机 向 量 . 
令 f(z1,… tn) 表示 PDF. 同 二 维 情形 一 样 , 可 以 定义 边际 分 布 , 条 件 分 布 等 . 称 
X1,… ,Xn 是 独立 的 , 如 果 对 任意 集合 4A1,… An 有 


P(X1 € A1,:… ,Xn € An) = ees € Aj). (2.8) 


i=1 


很 容易 检验 f(z1,… ,zn) = 站 fx,(zi) 成 立 . 


2.41 定义 ”如果 XI，,… Xn 独立 并 且 都 有 相同 的 关于 CDF F 的 边际 分 布 画 
数 , WAR Xi, ,Xn 是 IID (独立 同 分 布 ), 记 为 


i Xa Fi 


如 果 已 的 密度 函数 为 f, 也 可 记 为 X1，,… Xa ~ f, 有 时 也 称 X1,… ,Xn 是 来 
OF 样本 量 为 ”的 随机 样本 . 
许多 统计 理论 和 实践 都 建立 在 IID 观测 的 基础 上 , 当 讨论 统计 量 的 时 候 将 对 它 
作 详 细 研 究 . 
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2.10 ”两 个 重要 的 多 元 分 布 


多 项 分 布 二 项 分 布 的 多 元 形式 称 为 多 项 分 布 . 假设 一 个 坛子 里 装 有 上 种 颜 
色 的 球 , 编号 为 “颜色 1, 颜色 2, …… BE k, 随机 从 坛子 中 抽取 一 个 球 ， 令 
p= (ps: ,pk), 其 中 p;>0 且 > pj = 1, 假设 p; 表示 选取 的 球 的 颜色 为 颜色 j 
的 概率 . 抽取 次 他 立 重复 抽取) 并 人 X= (XX,… ,Xk), 其 中 ，X; 表示 颜色 j 出 
现 的 次 数 . 因此 , n = 3% j WW X RAETH (np), 记 为 X ~Multinomial(n, p), 


其 概率 函数 为 


/= 4g, oto e9) 


( n )- n! 
Ziet Tn, Tl ap! 


2.42 5| Jit X ~Multinomial(n,p), KP, X = (X1, , Xk) p = (Pr, 
Pk), 则 Xj 的 边际 分 布 为 二 项 分 布 Binomial(n, pj). 

多 元 正 态 分 布 一 元 正 态 分 布 有 两 个 参数 , pA o, 在 多 元 情形 下 , / 是 一 个 向 
tit, o 被 矩阵 了 取代, 首先 令 


其 中 


其 中 Zi, ,Zk ~ N(0,1) 且 独 立 , 则 Z 的 密度 函数 为 ” 


k 1 ish 
f(z) = Tie = anor { - P 
1 1 
= gyn Plz?) 
称 2 服从 标准 多 元 正 态 分 布 , 记 为 Z ~ N(0,1), RF, 0 表示 有 上 大 个 0 元 素 的 向 量 , 
了 为 大 x 大 的 单位 矩阵 . 
更 一 般 地 , 如 果 X 具有 密度 函数 ? 


faim) = BA { - 3@- WTS wh, (2.10) 


x 
© 如 果 a 和 5 是 向 量 , 则 aTb = dai. 
@ D7} 表示 矩阵 E Ht. 
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则 向 量 X 服从 多 元 正 态 分 布 , 记 为 X ~ N(m D), KH, |D| 表示 I 的 行列 式 值 , 1 
为 长 度 为 的 向 量 , 2 为 上 x 大 的 正定 对 称 矩 阵 ?. 当 p=0,2 = 了 时 就 是 标准 正 态 
分 布 的 情形 . 

由 于 忆 是 对 称 的 正定 矩阵 , 可 证 明 存在 矩阵 DY? — 称 为 也 的 平方 根 一 具 
有 如 下 性 质 ; (DEM? 是 对 称 的 , (iD = D12512, (ii) DY25-12 = 加 1/2512 = I, 
其 中 y-1/2 = (51/2), 

2.43 定理 eR Z~ N(0,I) E X = p+ 5™?Z, Wl X ~ N(u, 5), 相反 地 ， 
tož X ~ N(p, £), A| B-V?(X — u) ~ N(0, 1). 

假设 将 随机 向 量 X 划分 为 X = (Xa, Xo), 则 类 似 的 有 u = (Ha, p) 和 


2.44 定理 FX ~N(u,Z), A 
(1) Xa 的 边际 分 布 为 Xa ~ N(ja, Saa). 
(2) 给 定 Xa = za 的 条 件 下 Xo 的 条 件 分 布 为 
KolXa = Ta ~ N (p + Sba Zaa (Ta — pa), Zob — Dra Daa Xab). 


(3) 如 果 a 是 向 量 , 则 aTX ~ N(aTp, aT Za). 
(4) V = (X —p)TE-1(X — p) ~ x. 


2.11 随机 变量 的 变换 


假设 随机 变量 X 有 PDF fx 和 CDF Fx, $ Y = r(X) 为 X 的 函数 , 例如 ， 
Y = X?,Y =eX, 称 Y = r(X) WX 的 变换 . ELER Y Wy PDF Al CDF 呢 ? 在 
离散 情形 下 , 很 容易 求 得 , Y 的 密度 函数 如 下 : 
fr(y) = P(Y =y) = P(r(X) =Y) 
= P({z : r(x) = y}) = P(X Er *(y)). 
2.45 例 假设 P(X= -1) = P(X = 1) = 1/4, P(X = 0) = 1/2, 4 Y = X?, 
SW P(Y = 0) = P(X = 0) = 1/2, P(Y = 1) = P(X = 1) + P(X = -1) = 1/2, B] 
z fx(z) 
-1 1/4 
0 1/2 
1 1/4 


y friu) 
0 1/2 
1 1/2 


@ 如 果 对 所 有 非 零 向 量 z 有 x7 Oz > 0, 则 OES. 
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Y 的 取 值 比 X 少 , 因为 该 变换 不 是 一 对 一 的 变换 . 
连续 情形 下 求 Y 的 分 布 要 难 一 些 , 主要 有 3 步 : 


求 变换 的 分 布 的 3 个 步骤 
1. 对 每 个 y, 求 集合 A = {2 : r(x) < y}. 
2. R CDF 


Fy(y) = P(Y < y) =P(r(X) < y) 
= P({x: r(x) < y}) 
= J. fx(z)dz. (2.11) 


3. PDF 为 fy(y) = FY (y). 


2.46 Bl 4 fx(z) = e,z > 0, 从 而 Fx(z) = So fx(s)ds = 1 - e7. & 
Y =r(X) =X, WJ Ay = {z:1 <} H 


Fy (v) = P(Y < y) = P(n X < y) 
= P(X < &) = Fx(®) = 1 — e7% 


因此 , fy (y) = ere, Hp, y ER. 
2.47 Ø) $ X ~Uniform(—1,3), R Y = X? fy PDF. X 的 密度 函数 为 


1 
=, -l<2z<3, 
= 4 
fx (x) fa 其 他 


Y 的 取 值 范围 为 (0,9)， 考 虑 两 种 情形 : (i)0 < y < LiDl <y < 9 对 情形 (i), 
Ay = [-Vu, VI] E Fy (y) = fa, fx(z)dz = (1/2) yg; 对 情形 (ii), Ay = [-1, va] E 
Fy(y) = fa, fx(z)dz= (1/4)( Vy + 1), 3t F OME 
1 
TIR’ 
fr(y) = Ey 1<y<9,. 
0， 其 他 . 
X r 是 严格 增 函 数 或 者 严格 减 函数 时 , r RAER s = r-1, 这 种 情况 下 , 可 

以 证 明 


0<y<l, 


f(y) = fx(s(y)) [se] . (2.12) 


2.12 多 个 随机 变量 的 变换 


2.12 多 个 随机 变量 的 变换 


有 些 情况 下 , 更 关心 多 个 随机 变量 的 变换 . 例如 , 如 果 X 和 了 为 给 定 的 随机 变 
基 , 可 能 想 知道 X/Y, X +Y, max{X, Y} 或 min{X, Y} 的 分 布 . 令 Z = r(X,Y) 为 
所 关注 的 函数 , R fz 的 步骤 与 上 一 节 相同 . 


求 变换 的 分 布 的 3 个 步骤 
1. 对 每 个 z, RRS A, = {(z,y) : r(z,y) < z}. 
2. 求 CDF 


Fy(y) = P(Z < 2) = P(r(X,Y) < 2) 
= P(e) :roy) <2) = f f txy(ewardy. 


3. PDF 为 fz(z) = FS(z). 


2.48 例 & Xı,X2 ~Uniform(0,1) 且 独 立 , R Y = Xı + X2 的 分 布 函数 
(Xi, X2) 的 联合 密度 函数 为 


y= 1, 0<z1<1,0<7z2<]1, 
1, T2. 0, 其 他 . 


令 r(ziza) = z1 +22, WA 
Fy(y) = P(Y < y) = P(r(Xi, X2) < y) 


= P({(21,22):r(e1.22) <y) = f f. fer,22\derder. 


接 下 来 求 4v 是 一 个 困难 的 环节 , 首先 假设 < y <1, 则 Ay 为 由 顶点 (0,0), (y, 0), 
(0,y) 组 成 的 三 角形 区 域 , 见 图 2.6. 


(y-1,) 


1 


(0.4) (1,y-1) 


0 (y, 0) 


1 


0<y<1 l<y<2 


2.6 例 2.48 的 集合 Ay, Ay 包括 正方 形 下 方位 于 直线 za =y- 21 下 的 所 有 点 (21,22) 
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在 这 种 情况 下 , S Sa, f(z1,22)dz1dz2 为 该 区 域 的 面积 即 y2/2. WR 1 < y <2, 
则 Ay 为 单位 正方 形 区 域 排除 由 顶点 (1,y 一 1), (1,1), (y— 1,1) 组 成 的 三 角形 . 该 区 
域 的 面积 为 1 — (2 一 y)?/2, 因此 ， 


0, y<0, 
R P O0<y<l, 
¥(y) = (2-y)? 
1 l<y<2, 
1, y>2. 


微分 得 PDF 为 
yy, O<y<l, 
Fy(y)= 4 2-y, 1<y<2, 
0, 其 他 . 
2.13 附 录 
请 读者 回想 一 下 前 面 有 关 概 率 测度 的 介绍 , 概率 测度 P 是 基于 样本 空间 9 的 


0 域 4 上 的 函数 , 随机 变量 X : 9 一 R 为 可 测 映射 , 可 测 的 含义 为 , 对 任意 z, {w : 
X(w) < rz} EA. 


2.14 J 题 


= 


. 试 证 明 

P(X = z) = F(z+)— F(z"). 
. 令 随机 变量 X 满足 P(X = 2) = P(X = 3) = 1/10, P(X = 5) = 8/10. 绘 出 
CDF 函数 F 的 图 形 . A FOR P(2 < X < 4.8) 和 P(2< X < 4.8) 的 值 . 
证 明 引 理 2.15. 
令 久 的 密度 函数 为 


~ 


>p 


fx(z) = 


olw Ale 


(a) RX 的 累积 分 布 函数 ; 

(b) 令 Y=1/X, 求 Y 的 概率 密度 函数 fy(y). 

提示 : 分 3 种 情形 考虑 : 1/5 < y <1/3,1/3 << y <1,y 21. 

& X ALY 为 离散 随机 变量 ,证 明基 和 Y 独立 当 目 仅 当 fx,y (z,y) = fx(z)fy(y). 


p 
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6. 


3 


o 


16. 


令 X 的 分 布 函数 和 密度 函数 分 别 为 F 和 f, 令 4 为 实 直 线 的 一 个 子 集 , 令 
Ta(z) 为 4 的 示 性 函数 : 


nasia ea 


AY = Ma(z), RY 的 累积 分 布 函数 的 表达 式 ，( 提 示 :， 首先 求 Y 的 概率 密度 
函数 . ) 

& X AY 独立 并 服从 Uniform(0,1) 分 布 , 令 Z = min{X,Y}. 求 Z 的 密度 函 
数 fz(z). (提示 : 首先 求 P(2 > z). ) 

& X it} CDF X% F, R X+ = max{0, X} 的 CDF. 

& X ~Exp(8), R F(x) A F-*(q). 


. Q X A Y 独立 ,证明 g(X) 和 AY) 独立 , 其 中 ，g,h 为 函数 . 
. 假设 抛 一 枚 硬币 出 现 正面 的 概率 为 p, 令 X 表示 出 现 正面 的 次 数 , Y 表示 出 现 


背面 的 次 数 . 

(a) 证 明 X 和 了 独立 ; 

(b) 令 N ~Poisson(A) 且 假设 将 硬币 抛 N 次 , 令 X 和 了 表示 出 现 正 面 和 反面 
的 次 数 , 证 明 X 和 Y 独立. 


. 证 明定 理 2.33. 
. & X ~ N(0,1), Y =e%. 


(a) R Y 的 PDF, 并 绘 出 图 形 ; 

(b) (计算 机 试验 ) 随机 生成 10000 个 由 标准 正 态 分 布 产生 的 随机 数 , 它们 组 
成 的 向 量 z = (z1,… ,z10000). & y = (如 ,… ,Yio000), 其 中 ，yi = 6%. 绘 
出 的 柱状 图 并 与 (a) 求 出 的 PDF 比较 . 


-Q (X,Y) 服从 单位 圆 {(z,y) : z? +y? < 1} 上 的 均匀 随机 分 布 , AS R= 


Va? +y?, R RY CDF Ail PDF. 


(万 能 随机 数 生成 器 ) 令 X 具有 连续 、 严 格 递增 的 CDF KM F, QY = F(z). R 


工 的 密度 . 该 变换 称 为 概率 积分 变换 , 现在 令 U ~Uniform(0,1) H X = F-1(U), 
证 明 X ~ F. 请 读者 编写 程序 产生 来 自 Uniform(0,1) 的 随机 数 , 并 根 绝 结 论 生 
成 源 于 Exp(B) 分 布 的 随机 数 . 

令 义 ~Poisson( 和 ) H Y ~Poisson(p), 假 设 关 和 Y 独立 , 证明 在 给 定 X+Y =n 
的 情况 下 , X 服从 Binomial(n,7), H, m = A/(A + y). 

提示 1: 读者 可 使 用 如 下 结论 , 如 果 X ~Poisson(A), Y ~Poisson(y), W X Ail Y 
独立 , HX +Y ~Poisson(y + A); 

提示 2: 注意 到 {X =2,X+Y =n} ={X =2,Y =n- T}. 
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17. 令 ` 
e(z+%?), 0<2<10<y<1, 
0, 


fxx(2,9) = { 其 他 . 


求 P(X < bY = 3). 
18. $ X ~ N(3, 16), 使 用 正 态 分 布 表 和 计算 包 计算 下 式 : 
(a) R P(X <7); 
(b) R P(X > 一 2); 
(c) 求 z 使 得 P(X > z) = 0.05; 
(d) RPO<X <4); 
(e) R z 使 得 P(|X| > |z|) = 0.05. 
. 证 明 公 式 (2.12). 
20. 4 X,Y ~Uniform(0,1) H432, R X -Y AI X/Y i PDF. 
21, Xa, , Xa 独立 同 分 布 于 Exp(S), 4 Y = max{ Xi, Xn}, R Y H PDF. 
提示 : Y <y 当 且 仅 当 Xi <y 对 i= 1,… ,n RRL. 


m 
© 


x 
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3.1 随机 变量 的 期 望 
随机 变量 X 的 均值 或 者 期 望 表 示 X 的 平均 值 
SIEN X 的 期 望 值 世 均值 忒 一 阶 抵 定义 为 


E(X) = /ar Zafe) X 为 离散 随机 变量 ， 
帮 zf(z)dz， X 为 连续 随机 变量 ， 


(3.1) 


加 入 以 上 求 和 ( 或 积分 ) 定义 明确 ， 也 可 使 用 如 下 符号 表示 X HMB: 


E(X) =EX = | zdF(z) = p= px- (3.2) 


期 望 是 分 布 的 单 值 概括 , 可 以 将 E(X) 看 成 是 IID 随机 样本 X1,… ,Xn 的 平 


n 


均 X Xi/n 事实 上 E(X) ~ È Xun 是 正确 的 而 不 是 直观 推断 ; 它 被 称 为 大 数 定 
律 , 将 在 第 5 章 讨论 . 

符号 zdF(z) 值得 一 提 ， 这 里 仅仅 用 它 来 统一 符号 , 而 不 用 将 离散 形式 写成 
Lafe), 将 连续 形式 写成 zf (ade, 但 是 应 该 知道 ，/ zdF(z) 在 实 分 析 课程 里 面 


具有 明确 的 定义 . 
为 保证 E(X) 定义 明确 , 如 果 /|zldFx(z) < oo， 则 称 E(X) 存在 . 否则 称 期 望 
不 存在 . i 
3.2 Ø) 4 X ~Bernoulli(p), W E(X) = L rfl) = (0x (1-p))+ (1 x p) = P- 
3.3 例 “ 抛 一 枚 均匀 的 硬币 两 次 ,  X 表示 出 现 正面 的 次 数 , 则 
E(X)= J zdFx(z) = >> zfx(2) 


= (0 x f(0)) + (1 x f(1)) + (2 x £(2)) 
= (0 x (1/4)) + (1 x (1/2) + (2 x 1/9) = 1. 


3.4 B) 4 X ~Uniform(—1,3), W 
3 
E(X) = faarw = /sfx = if =k 


3.5 例 “前 面 已 经 讨论 过 如 果 随 机 变量 的 密度 函数 为 fx(a) = {r(L+z2)} 


a 


38 第 3 章 数学 期 户 


则 该 随机 变量 服从 柯 西 分 布 , 使 用 分 部 积分 (4 u = zu = arctanz) 得 
j: lzldF(z) = 2 F fdr arctan f adud, 
0 


T 1+2? 
所 以 均值 不 存在 . 如 果 读 者 对 柯 西 分 布 多 次 模拟 并 取 其 均值 , 会 发 现 均值 不 会 稳定 . 
这 是 因为 柯 西 分 布 的 尾部 较 厚 , 很 容易 出 现 尾 部 的 观察 值 . 

在 以 上 对 期 望 的 讨论 中 , 都 假设 期 望 是 存在 的 . 

令 Y = r(X), 怎么 去 计算 EY) 呢 ? 一 种 方法 就 是 求 出 fy(y), 然后 计算 
E(Y) = f yfy (y)dy, 下 面 介绍 另外 一 种 更 简捷 的 方法 . 


3.6 定理 (MARTE REM) LY =r(X), 则 
E(Y) = E(r(X)) = J r(2)dFx(2). (3.3) 


该 结论 可 从 直觉 上 来 判断 , 假想 一 个 游戏 , X 为 随机 变量 , 我 付 给 你 Y = r(X), 
你 的 平均 收入 为 r(z) RA X = z 的 概率 , 且 将 z 的 所 有 值 进行 求 和 (或 积分 ) 即 得 . 
有 一 种 特殊 情况 , 令 4 为 一 事件 并 令 r(z) = Ia(z), 其 中 ,I4(z) = 1,2 € A; Ta(z) = 
0,0 ¢ A, 从 而 


E(I4(X)) = J Ta(a) fx (a)da = J fx(z)dz = P(X € A). 


换 句 话说 , 概率 是 期 望 的 特殊 情况 . 
3.7 例 令 X~Uniform(01),Y = r(X) = ex, W 


BY)= /eyeaz= /eaz=e-1 


另外 一 种 方法 就 是 先 求 fy(y), 结果 为 fy(y) = 1/y, 其 中 ，1 < y < e, 从 而 , E(Y) = 
J uf (y)dy =e-1. 

3.8 例 “将 一 根 单位 长 度 的 棍子 从 中 间 某 一 点 折断 , 令 Y 为 较 长 一 段 的 长 
BE, Y 的 均值 为 多 少 ? 如 果 X 为 折断 点 , 则 X ~Uniform(0,1) H Y = r(X) = 
max{X,1 一 X}, 从 而 , 当 0<z<1/2 时 r(z)=1-z, 当 1/2<z<1 时 r(z)=z， 
因此 ， 


1/2 1 
EY) = [ r(ajar(a) = f (-ade+ fade =F 


多 个 变量 的 函数 处 理 同 单 变量 一 样 , 如 果 Z = (X,Y), 则 
E(Z) = B(x.) = | f renaFeey (3.4) 


3.2 ”期 望 的 性 质 2 


3.9) 4 (X,Y) 为 单位 正方 形 上 的 联合 均匀 分 布 , & Z = (X,Y) = X?+Y?, 
从 而 


EZ) = | f renaren = i ， if | a? + yP)azdy 


1 1 2 
-f var + | ydy = =. 
0 o 3 


假设 E(|X|*) < 00, 则 X 的 k 阶 矩 定义 为 E(X"). 
3.10 定理 RA MMEAAD j< k, Mj AK. 
证 明 根据 定义 有 


E|X = J * Isl fx (nde 
= [le fx(e ae + [lt tx@ae 
lel<1 |z2|>1 
ik 
< [teat fia fx a) 
<1+E(|X|*) < 00. 


k 阶 中 心 矩 定义 为 下 (X — p)*). 


3.2 ”期望 的 性 质 
3.11 定理 。 如 果 X1,… Xn 为 随机 变量 , a1,… ,an 为 常数 , 则 
E (Sax) = DF) (3.5) 


3120) 4X ~Binomial(n,p), X 的 均 人 为 多 少 ? 根据 定义 
L f/r n-z 
B(x) = f zarko) = Dara = X (ra 


但 上 述 求 和 的 结果 并 不 容易 求 得 , 换 一 种 思路 来 考虑 , 注意 到 X = È Xa, 如 果 第 i 
次 出 现 的 是 正面 则 Xi = 1, 否则 Xi = 0, 从 而 E(X) = (p x 1) + ((1—p) x0)=p, 
He E(X) = E(X Xi) = D E(X:) = np. 

3.13 EE A X1,… Xn 为 独立 随机 变量 , 则 


E (i x) =]. (86) 
i=1 i 
注意 加 法 定理 中 不 需要 独立 的 条 件 , 但 乘法 定理 中 需要 独立 的 条 件 
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3.3 方差 和 协 方差 
方差 度量 分 布 的 散布 程度 > 


3.14 定义 AX AGA u OMMEE, X HFE 记 为 02 或 V(X) 或 
VX 一 一 定义 为 


0 =E(K—y)? = fe- uar). (3.7) 


其 中 假设 期 望 存在 ， 标 准 差 定义 为 sd(X) = (V(X), 也 记 为 0 À ox. 


3.15 定理 ”假设 方差 存在 , 则 它 具有 如 下 性 质 : 

1. V(X) = E(X?) 一 p2. 

2. 如 果 a fe b ABH, 则 V(aX +b) = a2V(X). 

3. 如 果 Xi, Xn 为 独立 随机 变量 , a1,… ,an 为 常数 ， 则 


v (Sax) = Yav). (3.8) 
i=l i=l 


3.16 Gl 4 X ~Binomial(n, p), 其 中 , 如 果 第 i 次 出 现 正面 记 X; = 1, 否则 
Xi = 0. AM X= OX H Xi 之 间 独 立 , P(X; = 1) =PP(X = 0) =1—p, 回忆 前 


面 的 计算 


E(Xi) = (p x 1) + ((1—p) x 0) =p, 


A 
E(X?) = (p x 1”) + (1 — p) x 0?) =p. 


因此 VOX) = EXP) -p = p-p? = p(1 = p) 进而 求 得 VCO = VOX) = 
EVX:) = Dp = p) = mpl — p). 注意 到 如 果 p=1 或 p=0 时 VLX) =0, 从 直 


觉 上 想 想 为 什么 是 这 样 ? 
如 果 Xi, Xn 为 随机 变量 , 则 定义 样本 均值 为 


> 1 
Xn = = x (3.9) 
HAG 


t= ky. (3.10) 


© 不 能 用 E(X — u) 来 度量 散布 程度 ,  E(X — u) = E(X) -p= p — u = 0, 有 时 用 E|X — u| ® 
度量 散布 程度 , 但 通常 都 使 用 方差 来 度量 . 
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3.17 È A Xi,… ,Xn 为 IID 随机 变量 且 几 一 下 (Xi),a2 = V(X), 则 


EÆ)=m VÆ”, E) =o. 


如 果 X 和 了 为 独立 随机 变量 , 则 X 和 Y 的 协 方差 和 相关 系数 可 以 用 来 度量 
和 和 了 之 间 线 性 关系 的 强 弱 . 


3.18 定义 AX PY RIADNA ux 和 Jr， 标准 差分 别 为 cx 和 oy 的 随 
MEE, 定义 X fe Y 的 协 方差 为 


Cov(X,¥) = E(X - px)(Y — py), Ba 
相关 系数 为 
p=pxy = AX) = ZEN, (3.12) 


3.19 定理 。 协 方差 满足 
Cov(X,Y) = E(XY) — E(X)E(Y), 


相关 系数 满足 
-1< (X,Y) <1, 


RY =aX+b, $P, afb AK, MH a>O0 MH (X,Y) =1, 4a <0 Ht 
P(X, Y) = -1 如 果 X f Y 独立 , 则 Cov(X,Y) =p 二 0, 反 过 来 通常 不 成 立 . 

3.20 Æ V(X +Y) = V(X) +V(Y) + 2Cov( X,Y), V(X —Y) = V(X) + 
V(Y) - 2Cov( X,Y). 更 一 般 地 , 对 于 随机 变量 XI Xn 


V bs aX) =J a?V(Xi) +2 YY aiajCov(Xi, X;). 


i<j 


3.4 一 些 重要 随机 变量 的 期 望 和 方差 
下 表 总 结 了 一 些 重要 随机 变量 的 期 望 和 方差: 
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分 布 均值 方差 - 

在 a 处 的 点 分 布 a 0 

Bernoulli(p) p p(l- p) 

Binomial(n, p) np np(1 — p) 
Geometric(p) 1/p (1 一 p)/p2 

了 Possion( 和 ) 入 入 

Uniform(a, b) (a + b)/2 (b — a)?/12 
Normal(u, o?) m o? 

Exponential(3) B B 

Gamma(a, 8) aß aß? 

Beta(a, 8) a/(a+B) — aB/((a+ B)P(a+h +1) 
如 0( 如 果 v > 1) z/ 一 (如 果 v> 2) 
Xp p 2p 

Multinomial(n, p) np 见 下 文 

Multivariate Normal(u, 5) p z= 


上 一 节 推 导 了 二 项 式 分 布 的 E(X) 和 V(X), 其 他 一 些 分 布 的 期 望 和 方差 将 在 
练习 中 涉及 . 
上 表 最 后 两 行 是 多 元 分 布 的 情形 , 它 涉及 随机 向 量 X, 形 如 


m E(Xa) 
BEIE Ne : i 
Hk E(Xx) 
方差 - 协 方差 矩阵 定义 为 
V(X1) Cov(X1, X2) :+ Cov(X1, Xx) 
Cov(X2, X1) V(X2) +++ Cov(X2, Xx) 


V(X) = 


Cov(Xz,X1) Cov(Xk, X2) = V(Xk) 
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如 果 X ~Multinomial(n, p), 则 E(X) = np = n(pi,--- , pe), A 


npi(1—pi) 一 nplp2 aed —NPiPk 

—np2p1 np2(l —p2) … —np2pk 
V(X)= ‘ è j 

一 npkPl —npkp2 +++ mpe(1 — pr) 


为 进一步 理解 , 注意 到 向 量 中 任何 一 个 元 素 的 边际 分 布 为 X: ~Binomial(n, pi), 从 
而 有 EE(Xi) = npi, V(Xi) = npi(1 一 pi), 另外 , 注意 到 Xi + Xj ~Binomial(n, pi + pj), 
从 而 有 V(Xi 十 Xi) = n(pi 十 pj)(1 — [pi + Ps). 另 一 方面 , 利用 变量 和 的 方差 公式 有 
V(Xi+X;) = V(Xi)+V(X;)+2Cov(Xi, Xj) = npi(1—pi)+np;(1—p;)+2Cov(Xi, Xi), 
令 该 等 式 与 n(pi 十 pj)(1 一 [pi + pj) 相等 并 求解 得 Cov(Xi,X;) = —npip;- 

最 后 介绍 一 个 引 理 , 该 引 理 有 助 于 求 多 元 随机 向 量 线性 组 合 的 期 望 和 方差 . 

3.21 引 理 如果 a 为 一 向 量 , X 是 均值 为 wy, 方差 为 LT 的 随机 向 量 ， 则 
E(aTX) = au, V(aTX) = aT Da, 如 果 4 4—4, 则 E(AX) = Ap, V(AX) = 
ASAT. 


3.5 条 件 期 望 


假设 X 和 了 为 随机 变量 , 当 Y = y 时 X 的 均值 为 多 少 ? 方法 跟前 面 计算 X 
的 均值 一 样 , 只 不 过 将 期 望 定义 中 的 fx(z) 用 fxiv (aly) 代替 就 可 以 了 . 


3.22 定义 ”给 定 Y =y 情况 下 X 的 条 件 期 望 为 


Cefxiy(cly), 离散 情形 ， 
E(X|Y =y) = 3.13 
ae { J zfxly(zly)dz， 连 续 情形 . (3.13) 
FoR r(x,y) A x 和 HHH, Hl 
on f Ur(ey)fxyv(cly), 离散 情形 ， 
ela -{ J r(z,y)fxly(zly)dz， 连 续 情形 . (344) 


注意 ! 条 件 期 望 跟 期 望 有 一 些 区 别 , EX) 是 一 个 数值 , 而 E( XY = y) 是 
y 的 函数 . 在 观察 Y 之 前 , 并 不 知道 E(X|Y = y) 的 值 , 所 以 它 是 一 个 随机 变量 , 记 
H E(X|Y). 换 句 话说 , E(X|Y) 是 随机 变量 , 当 Y = y 时 , 其 值 为 E(XIY = y). 类 似 
”地 , E(r(X,Y)|Y) 是 随机 变量 , 当 Y = y 时 , 其 值 为 E(r(X,Y)|Y = y) . 这 一 点 很 容 
易 引 起 混淆 , 下 面 举 一 个 例子 来 说 明 . 

3.23 例 假设 和 ~Uniform(0,1), 当 观 察 到 =z 后 ,假设 YIX 
z Uniform (z,1), EX E(Y|X = z) = (1+2)/2, 事实 上 , fylx(ylz = 1) 


Le 
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1/(1 一 z), 其 中 ,z <y<1, 故 


1 1 
EYIX =2)= | vx = z= [vey = 555. 


此 , E(Y|X) = (1+X)/2, 它 是 一 个 随机 变量 , 当 观 察 到 X = z 后 , 其 值 为 E(Y|X = 
x) =(142)/2. 
3.24 定理 (ARM BEM) 对 随机 变量 X HY, 假设 期 望 均 存在 , MA 


EIE(Y|X)] = E(Y), ElE(XIY)] = E(X). (8.15) 
更 一 般 地 , 对 任意 函数 (x,y) 有 
EIE(r(X,Y)|X)] = Elr(X,Y)). (3.16) 
证 明 ”下 面 证 明 第 一 个 等 式 , 利用 条 件 期 望 的 定义 和 fley) = f(z)f(ylz)， 
Bex) = /EIx =a)fx(e)ar = | f vf(ule)dvf(e)de 
= J [vessearey = f fut)aray =E). 


3.25 例 EIAI 3.23 中 , 试问 怎么 计算 EY)? 一 种 方法 是 求 出 联合 密度 函数 
f(z,y), 然后 计算 EY) = /yf(z,y)dzdy. 令 一 种 更 简单 的 方法 可 以 分 两 步 来 实 
现 , 首先 已 经 知道 E(Y|X) = (1+ X)/2, 从 而 


ev) = eerw =e (42) 


_ (+EX) _ @+0/2)_3 
7 2 = 2 “ft 
3.26 定义 条 件 方差 定义 为 
ME f(v- ula)? ole)dv, (3.17) 


其 中 , u(x) = E(Y|X = 2). 
3.27 定理 ”对 于 随机 变量 和 和 了 有 


V(Y) = EV(Y |X) + VE(Y |X). 


3.28 例 ”从 美国 任意 挑选 一 个 县 出 来 , 然后 在 这 个 县 里 面 任意 挑选 n 个 人 ， 
DX BREEN PHARAOH AR WR O 表示 该 县 城 串 有 该 疾病 的 人 数 所 
占 的 比例 , 因为 县 与 县 之 间 比 例 不 同 , 所 以 Q 也 是 一 个 随机 变量 . 给 定 Q = a, 则 


3.6 i AE om 45 


X ~Binomial(n, q), 从 而 , E(X|Q = 9) = ng, V(XIQ = q) = ng(1 — 4). 假设 随机 变 
量 Q 服从 均匀 分 布 Uniform(0,1), 通过 以 上 方式 建立 的 分 布 称 为 分 层 模型 , 记 为 


Q ~ Uniform(0, 1), 
XIQ = q ~ Binomial(n, q). 


X 的 期 望 为 E(X) = EE(X|Q) = E(nQ) = nE(Q) = n/2, 现在 来 求 X 的 方差， 
V(X) = EV(X|Q)+VE(X|Q), 分 别 来 求 式 子 中 的 两 项 , 第 一 项 EV(XIQ) = Eng- 
Q)] = nE[Q(1—Q)] =n f a(1—a) f(q)da = n fo a(1-q)dg =n/6, 第 二 项 VE(XIQ) = 
V(nQ) = n2V(Q) = n? f(g — (1/2))?dq = n?/12, 从 而 , V(X) = (7/6) + (n?/12). 


3.6 矩 母 函数 


本 节 介绍 矩 母 函数 的 相关 内 容 , 矩 母 函 数 可 用 来 求 随机 变量 的 矩 、 随 机 变量 和 
的 分 布 以 及 用 于 证 明 一 些 定理 . 


3.29 定义 X 的 矩 母 函数 (MGF), 或 X 的 拉 普 拉 斯 变换 定义 为 


ox() =E(e*) = feara), 


KP, t ARK. 
在 下 文中 , 假设 MGF 对 于 在 t= 0 的 某 个 开 区 间 中 的 任意 t WEE O. 
当 MGF 存在 时 , 可 以 证 明 积分 和 “ 求 期 望 ” 算 子 可 以 互 换 , 从 而 有 


(0) = [gee] ae [se] og BLK eo = BX): 


进行 大 阶 微分 计算 可 得 6 (0) = E(X*), 这 提供 了 一 种 求 分 布 矩 的 方法 . 

3.30 Ø) 4 X ~Exp(1), 对 任意 上 < 1， 

$x(t) = Ee'* = 人 etre-rdz = f * ted = oh. 

对 于 t > 1, 该 积分 是 发 散 的 . 所 以 对 所 有 t < 1, x(t) = 1/(1 一 引 . HERR AER 
有 9(0) = 了 .gr(0) = 2, FLA E(X) = 1, V(X) = E(X?) - p? =2-1=1. 

3.31 5/32 MGF 的 性 质 

(1) #R Y =aX +b, Wl dy(t) = ex (at) 

(2) PRX ,Xn RZA Y =D Xi, A By(t) =] Gi, 其 中 ,i A Xi 的 
MGF. ‘ 1 

O 另 一 个 相关 的 函数 为 特征 函数 , 定义 为 E(eitx), 其 中 ，i = V1, 该 函数 对 所 有 + 通常 都 存在 . 


$$ 
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3.32 例 & X ~Binomial(n,p), BAI X = = Xi, 其 中 , P(Xi = 1) = p, P(X; = 


pene ME Galt) = Eext = (px et) + (1p) = pe’ +q, 其 中 , q = 1 一 p, 从 而 ， 
)=I1¢:() = = (pe! + q)”. 
回忆 前 面 的 介绍 , 如 果 X 和 Y 具有 相同 的 分 布 则 称 它们 同 分 布 , 记 为 x SY. 
3.33 定理 AX pY 为 随机 变量 , 如 果 对 以 0 为 中 心 的 某 个 开 区 间 里 所 存 
Ath tA pxl) = dy), MX ŻY. 
3.34 Ø) 4 Xı ~Binomial(nı, p), X2 ~Binomial(n2,p) 且 相 互 独立 , $ Y = 
Xi + X2, 从 而 ， 


dy (t) = o1(t) a(t) = (pef + q)” (pet + 4)" = (pet + g)™ 4". 


可 以 看 出 上 式 右 边 为 Binomial(na +n2, p) HEER MGF. 因为 矩 母 函数 唯一 确定 
分 布 的 形式 ( 即 两 个 不 同 的 随机 变量 不 可 能 有 相同 的 MGF), 所 以 有 ~Binomial(n1 
+n2, p). 


常见 分 布 函 数 的 矩 母 函 数 
分 布 MGF¢(t) 
Bernoulli(p) pe + (1—p) 
Binomial(n, p) (pet + (1 —p))” 
Poisson() ere) 
Normal(,¢) exp{ut + ey 
Gamma(a, 8) (7a) ,其 中 , t < 1/8 


3.35 例 4 Y; ~Poisson( 和 1), Yz ~Poisson(X2), 且 两 者 独立 Y = Yi + Ya 
HSE MBN drl) = r (Donli) = ADMD = e+- 这 是 
Poisson(N + Aa) 的 矩 母 函数 , 这 就 证 明了 两 个 独立 泊 松 分 布 变量 之 和 服从 泊 
松 分 布 


3.7 附 录 


有 关 期 望 的 积分 ”一 个 可 测 函 数 r(x) 的 积分 定义 如 下 . 首先 假设 > 是 简单 函 
数 , 即 在 一 个 划分 41,… , An 中 取 有 限 的 值 a1,… ,ax, 然后 定义 


k 
J r(z)dF (£) = 》 aiP(r(X) € Ai). 


i=l 
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正 测度 函数 的 积分 的 定义 为 fr(z)dF(z) = lim ri(z)dF(z), 其 中 , ri 是 简单 函 
数 序列 , 满足 ri(z) < r(z) 且 当 i 一 00 时 ri(z) 一 r(z), 它 并 不 依赖 于 特殊 的 序列 . 
可 测 函数 > 的 积分 定义 为 Jr(z)dF(z) = f r+(z)dF(z) - f r7 (z)dF(z), 其 中 ,假设 
两 个 积分 都 是 有 限 的 , r+(z) = max{r(z),0},r~ (x) = 一 min{7(z),0}. 


3.8 J 题 


. 假设 玩 一 个 游戏 , 开始 的 金额 为 e 美元 , 每 一 次 游戏 后 要 么 你 的 钱 翻 倍 , 要 么 你 
的 钱 减 半 , 二 者 概率 相等 , n 次 游戏 后 你 期 望 的 金额 是 多 少 ? 

. 证 明 V(X) = 0 当 且 仅 当 存 在 常数 c 使 得 P(X = c) = 1 成 立 . 

. AY X1,+++, Xn ~Uniform(0,1), Yn = max{X1,--+ , Xn}, R E(Yn). 

假设 一 个 质点 从 实 轴 的 原点 开始 向 两 边 游 动 , 每 次 移动 一 单位 , 向 左 移动 一 单 

位 的 概率 为 p, 向 右 移动 一 单位 的 概率 为 1 一 p, 令 Xn 表示 移动 n 个 单位 后 质 

点 的 位 置 , R E(Xn) 和 V(Xn)( 这 就 是 著名 的 随机 游 走 ). 

投 搓 一 枚 均匀 的 硬币 直到 第 一 次 正面 出 现 , 求 期 望 抛 搓 的 次 数 至 少 是 多 少 ? 

证 明定 理 3.6 的 离散 随机 变量 情形 . 

. 令 X 为 CDF 为 下 的 连续 随机 变量 ,假设 P(X > 0) = 1 H E(X) 存在 , 证明 
E(X) = fy P(X > z)dz. 
提示 : 考虑 分 部 积分 并 使 用 事实 : 如 果 EX) 存在 , 则 lim z[1 一 F(z)] = 0. 

, 证 明定 理 3.17. 

(计算 机 试验 ) 令 X1,X2,… ,Xn 为 来 自 N(0,1) 随机 变量 , Xn =n Xi, 


绘 出 Xn MF n =1,--- , 10000 的 图 形 , 如 果 X1,X2,… ,Xn 服从 柯 西 分 布 重 
复 以 上 步 又 , 并 解释 为 什么 两 者 存在 差异 . 
10. 4 X ~ N(0,1) HY =e¥, R E(Y) uy 
11. (计算 机 试验 : 模拟 股票 市 场 ) $ Yi, Yo, Yn 为 独立 随机 变量 且 满 足 P(2 = 
1) = P(Y; = -1) = 1/2, R Xa = È Yi Y= 188 “股票 价格 上 涨 1 美 
” HEY; =-1 视 为 “股票 价格 下 降 1 850” , Xn WAR n 天 股票 的 价格 . 
Ta R E(Xn) 和 V(Xn); 
(b) 模拟 Xn 并 绘 出 Xn 对 于 = 1,2,… , 10000 的 图 形 , 重复 模拟 几 次 , 注意 
两 点 , 第 一 点 , 即使 序列 是 随机 的 , 但 很 容易 看 出 序列 呈现 的 趋势 , 第 二 点 ， 
你 会 发 现 虽然 图 形 产生 方式 是 一 开始 给 出 的 , 但 仍 会 出 现 一 些 差别 . 利用 
(a) 的 结论 如 何 解释 第 二 点 . 
12. 证 明 3.4 节 表 中 关于 伯 努 利 分 布 、 泊 松 分 布 、 均 匀 分 布 、 指 数 分 布 、 伽 马 分 
布 和 贝塔 分 布 的 结果 ， 这 里 给 出 一 些 提示 : 对 于 泊 松 分 布 的 均值 , 使 用 等 式 
e 一 È a? /a!, 计算 其 方差 , 先 计算 E(X(X - 1); H FWAR, 先 乘 


= 
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14. 


16. 


以 因子 T(a+1)/68*+? 然后 利用 伽 马 密 度 函 数 积分 为 1 的 事实 ; 对 于 贝塔 分 布 ， 
乘 以 因子 T(a + DT(B)/T(a +8 +1). 


* 假设 按 如 下 方式 生成 随机 变量 X, 首先 抛 一 枚 均匀 的 硬币 , 如 果 出 现 正面 , 令 


X ARMA (0,1) 均匀 分 布 , 如 果 出 现 背面 , 令 X 服从 (3,4) 均匀 分 布 . 


(a) 求 X 的 均值 


YO) R X Bu HERE. 
令 Xi Xm Yis Yn 为 随机 变量 , a1,… ambi,- ,bn 为 常数 , 证 明 


Cov (es 2 x) =o aby Cov(X.,%). 


i=l i=l j=1 


(ct+y), O<z<1,0<y<2, 
其 他 . 


Lwin 


fxy(a,y) = { 
求 V(2X — 3Y + 8). 
S r(x) 为 z 的 函数 , 令 sly) 为 y 的 函数 , 证明 
E(r(X)s(¥)|X) = r(X)E(s(Y)|X), 


然后 证 明 E(r(X)|X) = r(X). 


. 证 明 


V(Y) = EV(Y |X) + VE(Y |X). 


提示 : & m = E(Y), (x) = E(Y|X = 2), 注意 到 E(b(X)) = EE(Y|X) = 
E(Y) = m, 要 记 住 是 的 函数 , 现在 将 V(Y) 写成 V(Y) = E(Y - m)? = 
E((Y — 6(X)) + (W(X) — m))?, 平方 展开 并 求 期 望 , 需要 对 3 项 求 期 望 , 在 每 一 
项 中 , 使 用 期 望 迭 代 原 理 E(Y) = E(E(Y|X)). 


. WEH: 如果 E(X|Y =y) = c, 其 中 , c 为 常数 , 则 X ALY 不 相关 . 
: 该 问题 有 助 于 理解 抽样 分 布 的 思想 , 令 X1,… Xn 是 均值 为 ,方差 为 o? 的 


TID 随机 变量 , $ Xn = n-! Pea 从 而 , Xn 为 一 统计 基 , 即 数据 的 函数 . 既 


然 Xn 是 随机 变量 ， 则 它 具 有 分 布 函数 ， 该 分 布 函数 就 称 为 统计 量 的 抽样 分 布 
函数 ， 回 想 定理 3.17 的 结论 , EX.) = pu, VXn) = o2/n, 不 要 将 数据 的 分 
布 fx 和 统计 基 的 分 布 fx, 的 分 布 搞 混淆 了 , 为 了 使 读者 更 加 清晰 的 理解, 令 

Xis: ,Xn 服从 (0,1) 均匀 分 布 , & fx 为 (0,1) 均匀 分 布 的 密度 函数 , 绘 出 fx 
的 图 形 , $ Xn =n = Xi, RE E(Xn) 和 V(Xn), ERE n 的 函数 作出 图 


形 并 进行 解释 , 对 n = 1, 5,25, 100, 模拟 Xn 的 分 布 . 检查 EKn) 和 V(Xn) 的 
模拟 值 是 否 符合 理论 推算 , 4 n 增 大 时 X, 的 分 布 如 何 变化 ? 


习 题 49 


20. 
. 令 和 和 了 为 随机 变量 , 假设 E(Y|X) = X, 证 明 Cov(X,Y) = V(X). 
. 2 X 服从 (0,1) 均匀 分 布 , 令 0<a<b<1, 令 


w 
局 


22. 


2 


pa 


证 明 引 理 3.21. 


y= 1, 0<2<b, 
0, 其 他 . 


Ze { 1, a<az<l, 
0, 其 他 . 
(a) Y 与 Z 是 否 独立 ? 为 什么 ? 
(b) RE(Y|Z), 提示 : 2 可 以 取 哪 些 值 z? 求 E(Y|2 = z). 


. 求 泊 松 分 布 、 正 态 分 布 和 伽 马 分 布 的 矩 母 函 数 . 
24. 


令 Xi Xn 服从 参数 为 8 的 指数 分 布 , 求 Xi 的 矩 母 函数 , 证 明 Èx 服从 
BRA a, p 的 伽 马 分 布 . 
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41 概率 不 等 式 


不 等 式 对 于 一 些 很 难 计算 的 量 非常 有 用 , 它 也 常用 于 收敛 定理 , 有 关 收 全 定理 
将 在 下 一 章 具体 讨论 , 这 里 首先 介绍 的 不 等 式 是 马尔 可 夫 不 等 式 . 
4.1 定理 (马尔 可 夫 (Markov) KFA) A 外 为 一 非 负 随机 变量 , 假设 E(X) 
存在 , 对 任意 t>0 有 


E2, 


P(X >t) < 40) (4.1) 


证 明 因为 X>0, 所 以 
oo t OO 
E(X) = f afers A zf(zjdz+ f zf(z)dz 
> f zf(z)dz >t f f(z)dz = P(X >t). 


4.2 定理 ( 切 比 雪夫 (Chebyshev) KFA) A y= E(X), o? = V(X), 则 


2 1 
P(X -a >t) < PIZI > k) < E (4.2) 


HP, Z = (2 - u)/o, 特别 地 , P(|2| > 2) < 1/4,P(|2| > 3) < 1/9. 


证 明 ”利用 马尔 可 夫 不 等 式 可 得 
az 2 2 
PX — | > 0) = P(X — pl? >) < SAW we 


第 二 部 分 令 t= ko 即 得 . 

4.3 例 ”假设 检验 一 种 预测 方法 , 涉及 n 中 检验 情形 , 以 神经 网 络 为 例 . 如 果 
预测 错误 则 令 Xi = 1, 反之 则 令 Xi = 0. AM Xn =n x Xi 是 观察 到 的 误差 率 . 
每 个 Xi 可 认为 服从 未 知 均值 p 的 伯 努 利 分 布 . 要 想 知道 — 但 是 不 知道 一 一 真 
实 误差 率 p. 从 直觉 上 判断 , Xn 应 与 p 非常 接近 , Xa 不 在 p 附近 。 的 范围 内 的 概 
率 为 多 少 ? 已 知 V(Xn) = V(X1)/n =p(1 — p)/n, 从 而 ， 

P(X -p| > £) < Ga = wa) < a 


上 式 利用 了 不 等 式 p(1 — p) < 1/4, 对 于 < = 0.2 A n = 100, 所 求 的 界 为 0.0625. 
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[4.4 定理 (RAT (Hocfiding) RFA) A Yi Yn 为 独立 观察 值 , BR 
E(Yi) =0, La SY; < bi. 令 e>0, 则 对 于 任意 t>0 有 


P (È Y; > <) <e*Ile es. (4.3) 


i=1 i=1 


4.5 定理 A X1,… Xn 服从 参数 为 p 的 伯 努 利 分 布 , 则 对 于 任意 = > 0 有 


P([Xn —p| > £) < 2er2ne ， (4.4) 
$ 


HP, Xna OX. 


i=l 


460 Xn, Xn 服从 参数 为 了 的 伯 努 利 分 布 , & n = 100, e = 0.2, 由 切 
比 雪 夫 不 等 式 可 得 
P(|Xn —p| > £) < 0.0625. 


HMA T AEA 


P([Xn — p| < 0.2) < 260-2022)” = 0.00067. 


这 比 0.0625 要 小 很 多 . 
和 霍 夫 丁 不 等 式 提供 了 一 种 建立 在 参数 为 p 的 二 项 式 分 布置 信 区 间 的 简单 方法 
有 关 置 信 区 间 的 内 容 将 在 后 面 ( 见 第 6 章 ) 详细 讨论 , 这 里 给 出 简单 的 思想 , 固定 


a>0 并 令 
En = mie (2). 


P([Xn -pl > En) < 2e-2nef = a. 


由 霍 夫 丁 不 等 式 可 知 


4 C= (Xn — En, Xn + En), 则 Plp gC)=P(|Xn — P| > en) <a. 因此 , P(p € C) > 
1—a, 也 即 随机 区 间 C 包括 真实 参数 p 的 概率 为 1 一 a; HC H1-a 置信 区 间 ， 
更 多 细节 见 后 面 的 讲解 . 

下 面 的 不 等 式 对 于 正 态 分 布 随机 变量 的 概率 范围 确定 非常 有 用 . 


4.7 定理 (c (Mill) AFA) 令 Z~N(0,1), 则 


Ze-t/2 
<4/- 四 
P(|Z| >t) < Z z 
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4.2 有关 期 望 的 不 等 式 


本 节 介绍 有 关 期 望 的 两 个 不 等 式 . 


4.8 定理 ( 柯 西 - 施 瓦 英 (Cauchy-Schwartz) KFA) 如 果 久 和 YY 具有 有 限 
方差 , 则 


E|XY| < VE(X2E(Y2). (4.5) 


以 前 曾经 学 过 , 如 果 对 任意 z,y 以 及 a € [0,1], 函数 9 满足 
glaz + (1 — a)y) < ag(z) + (1 — a)g(y), 


则 函数 9 是 凸 函数 ， 如 果 对 于 所 有 z, 函数 g 二 阶 可 导 , A g”(z) > 0, 则 可 证 明 
9 是 凸 的 , 9 位 于 与 其 相 切 于 任 一 点 的 直线 的 上 方 , 该 直线 称 为 切线 . 如 果 -9 是 
凸 函数 , 则 9 EU. RRO MFM g(z) = z?,g(z) = ez; 四 函数 的 例子 如 
g(a) = -72,g(z) = log z. 


4.9 定理 ( AR (Jensen) FFA) 如 果 9 为 凸 函数 , 则 


Eg(X) > g(EX). (4.6) 
如 果 g AMY HM, 则 


Eg(X) < g(EX). (4.7) 


证 明 SHR Lz) =a+bz 与 g(z) HIFA EX), 因为 9 是 凸 函数 , 它 位 于 
直线 L(x) 的 上 方 , 所 以 


Eg(X) > EL(X) = E(a + bX) = a + bE(X) = L(E(X)) = g(EX). 
HARTERT A E(X?) > (EX); 如 果 X XE, W E(1/X) > 1/E(X); 因为 
对 数 函 数 是 止 函数 , 所 以 E(log X) < logE(X). 
4.3 文献 注释 


(Devroye et al., 1996) 是 一 本 很 好 的 参考 书 , 它 的 主要 内 容 涉 及 概率 不 等 式 、 
概率 不 等 式 在 统计 中 的 应 用 及 图 像 识别 . 下 面 有 关 午 夫 丁 不 等 式 的 证 明 出 自 这 
本 教材 . 


4.4 附 录 


霍 夫 丁 不 等 式 的 证 明 如 下 证 明 将 用 到 泰勒 定 理 ; 如 果 9 为 光滑 函数 , 则 存在 
数值 Ee (0, u) 使 得 g(u) = g(0) + ug'(0) + (u?/2)9"(E)- 
定理 4.4 的 证 明 对 任意 上 > 0, 由 马尔 可 夫 不 等 式 得 


n n thy 
P( SOY >e] =P(t> Vi >te}] =P(e Hi >e 
i=1 i=1 
<e*E (站 =e T[Ee™). (4.8) 


AW a < Yi < bi, WHEY, 写成 aibi MGA, B Yi = abi + (1 一 a)ai, 其 中 ， 
a = (Y; — a;)/ (bi — ai), 所 以 根据 et 的 凸 性 得 到 
er < Mine, = i Sith + Hgts 
bi — ai 3 
两 边 取 期 望 并 利用 E(Yi) = 0 得 
ai bi 
bi—ai 


E(e%) < — et + = rites = en), (4.9) 


其 中 , u = t(bi — ai), g(u) = —yu + log(1 — y + ye"), y = —ai/ (bi — ai). 
注意 到 9(0) = g'(0) = 0 且 对 所 有 u > 0,9"(u) < 1/4, 根据 泰勒 定理 , 存在 
EE (0,u) 满足 
2 
glu) = 9(0) + ug'(0) + oat 
-Êy u? _ tP(bi — ai)? 
lOs a 
因此 
EetY: < eit) < e” ®i-a:)?/8, 


结合 (4.8) 即 证 . 
定理 4.5 的 证 明 4 Y; = (1/n)(X; — p), W E(Y:) = 0, & a = —p/n,b = 
(1-p)/n, I a < Y; < b H (b-a)? =1/n?, 根据 定理 4.4 得 


P(X, 一 p > e) =P (= Y; > :) < en tet /(8n) 


上 式 对 于 任意 t > 0 均 满足 , He t = 4ne 得 P(Xn — p > e) <e-2" ,类似 地 , 可 证 明 
P(X — p < -e) < 072"? , 合并 即 得 P(|Xn — p| > £) < 2e-2ne . 
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4.5 习 题 
1. 令 义 服从 参数 为 p 的 指数 分 布 , R P(X - nx| > kox), 其 中 , k > 1, 将 得 到 的 
结果 与 切 比 雪夫 不 等 式 比较 . 


2. & X 服从 参数 为 和 的 泊 松 分 布 , 利用 切 比 雪夫 不 等 式 证 明 P(X > 2d) < 1/ 和 

3. 令 Xi, ,Xn 服从 参数 为 p 的 伯 努 利 分 布 , AX, = m1 ¥ Xe 分 别 利 用 切 
比 雪夫 不 等 式 和 和 霍 夫 丁 不 等 式 确定 P(|X。 — p| > e) 的 界 , 并 证 明 当 n 很 大 时 ， 
rh leached 比 雪夫 不 等 式 得 到 的 界 小 . 

4. 令 Xi ,Xn 服从 参数 为 了 ESTE, 
(a) 令 a > 0 为 固定 常数 , 定义 


2 
“= 
令 Pn=n-l EX, 定义 Cn = (Pn — En Pn + En), ARR T RGR 


P(C fp) > 1- a. 


实际 运用 中 , 应 缩短 该 区 间 使 其 不 会 低 于 0 或 者 超过 1. 

(b) (计算 机 试验 ) 用 来 检验 置信 区 间 的 性 质 , 令 a = 0.05,p = 0.4, 进行 模拟 
研究 , 看 该 区 间 包括 p 的 几率 有 多 少 ( 称 为 覆盖 率 )? 对 n 从 1 ~ 10000 重 
复 以 上 步 又 , 画 出 覆盖 率 相对 于 n 的 图 示 . 

(c) 绘 出 区 间 长 度 相对 于 n 的 图 示 , 假设 希望 区 间 长 度 至 多 为 0.05, n 至 少 为 
多 大 ? 

证 明定 理 4.7 的 米尔 不 等 式 , 提示 : 注意 P(|2Z| > t) = 2P(Z > t), 关注 一 下 

P(Z > t) 的 含义 且 注 意 到 当 z > 上 时 有 z/t > 1. 

& X ~ N(0,1), 3R P(|Z| > ,将 它 视 为 + 的 函数 绘 出 其 图 形 , 由 马尔 可 夫 不 等 

式 知 , 对 于 任意 大 > 0 有 P(|2| > t) < E|Z|*/t*, 绘 出 该 上 界 对 于 大 = 1,2,3,4,5 

时 的 图 形 , 并 将 它 与 P(|2| > t) 真实 值 比较 . 最 后 , 绘 出 由 米尔 不 等 式 求 出 的 界 . 

T. 令 Xi, Xn ~ N(0,1), 使 用 米尔 不 等 式 求 P(| 辽 ,| > t) 的 界 , 其 中 , Xn = 
nt = Xi ASEE RME 


# 


Cad 
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5.1 5l a 


概率 论 最 重要 的 一 方面 就 是 关注 随机 变量 序列 的 趋势 这 部 分 内 容 称 为 大 样本 
理论 或 极限 理论 或 渐 近 理论 . 最 基本 的 问题 是 关于 随机 变量 序列 Xi, Xs,… 的 极 
限 性 质 可 以 作 何 论断 ? 因为 统计 与 数据 挖掘 涉及 大 量 数据 ,自然 而 然 地 , 也 会 关心 
当 收集 到 越 来 越 多 的 数据 时 会 发 生 什么 样 的 情况 

在 积分 理论 中 , 如 果 对 任意 = > 0, [en — z| < € 对 充分 大 的 n 都 成 立 , 则 称 实 
数 序列 za 收敛 于 极限 z 在 概率 论 中 , 极限 的 概念 更 加 深奥 , 回忆 积分 理论 中 的 介 
绍 ,假设 对 所 用 有 zn = z, 则 lim = z. 考虑 该 例子 的 概率 模型 ,假设 Xa, Xo, 
为 独立 同 分 布 随机 序列 , 服从 N(0,1) 分 布 , 因为 所 有 变量 具有 相同 的 分 布 , 所 以 可 
以 党 试 着 称 Xn “KAF” X ~N(0,1), 但 这 种 描述 并 不 十 分 精确 , 因为 对 所 有 n, 
P(X = X) = 0 (两 个 连续 随机 变量 相同 的 概率 为 0) ， 

还 有 另外 一 个 例子 , 假设 Xi, Xa ~ N(0,1/n), 从 直觉 上 判断 , 当 n 很 大 时 ， 
Xn 集中 在 0 附近 , 所 以 很 希望 称 Xn HACE 0, 但 是 对 所 有 mw P(X = 0) = 0. 很 
明显 ,需要 其 他 工具 来 讨论 更 严格 意义 下 的 随机 变量 的 收敛 , 本章 着 重 介绍 相关 的 
方法 

本 章 将 主要 介绍 两 种 思想 ， 

1 大 数 定律 说 明 样本 均值 Xn = n-! SX AMERICA = E(X), 意味 


Xn 以 很 高 的 概率 趋 于 u 
2. 中 心 极限 定理 说 明 VA(Xn 一 wR ART ESD, 意味 着 对 很 大 的 x, 
样本 均值 渐进 服从 正 态 分 布 . 


5.2 收敛 的 类 型 
两 种 主要 的 收敛 类 型 定义 如 下 : 


5.1 定义 A XI,X2,… ,为 随机 变量 序列 , X 为 另 一 随机 变量 , > Fn 表示 Xn 
的 CDF, F Aa X #4 CDF. 
1. 如 果 对 任意 > 0, žno 时 有 


P(|\X, — X| > £) 一 0， (5.1) 


则 称 Xn 依 概率 收敛 于 X, 记 为 Xn X. 
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2. 如 果 对 F 的 所 有 连续 的 点 t, 有 
dim, Falt) = F), (5.2) 
则 称 Xn 依 分 布 收敛 于 X, 记 为 X ~ X. 


SOR X 服从 点 分 布 时 , 需要 改变 一 下 符号 , 如 果 P(X = c) =1 且 Xn X, 则 
记 Xn 5 c, 类 似 地 , MUR Xn > X, 则 记 为 Xn ~ c 
这 里 再 介绍 另外 一 种 形式 的 收敛 , 这 种 收敛 对 证 明 概率 中 的 收 剑 很 有 用 . 


5.2 定义 ”如 果 当 n 一 00 时 有 


E(Xn — X}? 一 0， (5.3) 
则 称 Xn 均 方 意义 下 收敛 于 X( 也 称 La 收效 ), 记 为 Xn GX 


同上 面 类 似 , 如 果 X 服从 在 c 点 的 点 分 布 , 则 用 Xn Soc 代替 Xn BX 

5.3 例 令 Xn ~ N(0,1/n), 从 直觉 上 判断 , 4 n 很 大 时 , Xn 集中 在 0 附近 ， 
所 以 就 希望 称 Xn 依 概 率 收敛 于 0, 那么 来 看 一 下 是 否 正 确 . 令 下 为 在 0 点 的 点 分 
布 的 分 布 函数 , 注意 到 ViXn ~ N(0,1), 令 2 表示 标准 正 态 随机 变量 , 对 于 t< 0, 
因为 vnt 一 -oo, 所 以 Falt) = P(Xn < t) = P(VnXn < nt) = P(Z < Vat) > 0; 
对 于 t > 0, 因为 ynt 一 oo, 所 以 Falt) = P(Xn < t) = P(VnXn < ynt) = 
PZ < ynt) 一 1. At, 对 所 有 t 40 有 Falt) > F(t), 所 以 Xn ~ 0， 注 意 
Fn(0) = 1/2 # F(1/2) = 1, 所 以 在 t = 0 处 收敛 不 成 立 ， 这 并 不 影响 结果 , 因为 
t= 0 不 是 忆 的 连续 点 , 而 分 布 收敛 的 定义 仅 需 在 连续 的 点 收敛 即 可 , 见 图 5.1. 


F(t) F(t) 


t t 
图 5.1 例 5.3 
WHER t = 0 外 Fn(t) BF F(t), 所 以 Xn 依 分 布 收 化 于 X, 收敛 性 不 需要 在 上 = 0 满足 , 因为 它 
不 是 F 的 连续 点 


现在 再 考察 概率 收敛 , 对 任意 © > 0, 使 用 马尔 可 夫 不 等 式 , 当 n 一 oo 时 有 


x) _ ln 
e? 


P(|Xnl > €) = P(|Xal? > e?) < Ea) 0, 


因此 , Xn 0. 
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下 面 的 定理 给 出 了 各 种 收敛 类 型 之 间 的 关系 , 见 图 5.2. 


图 5.2 各 种 收敛 之 间 的 关系 


5.4 定理 如 下 关系 成 立 : 
(a) Xn E X 意味 着 Xn DX. 
(b) Xn D X 意味 着 Xn ~ X. 
(c) 如 果 Xn X HAF EM cH P(X = c) = 1 则 Xn > X. 
通常 情况 下 , 除 特 殊 情况 (c) 外 , 反方 向 并 不 成 立 . 
证 明 ”从 证 明 (a) 开始 , 假设 Xn 又 X 成 立 , 对 固定 。 > 0, 利用 马尔 可 夫 不 
等 式 
P(|Xn — X| > €) = P(|Xn — XP > €?) < 


(b) 的 证 明 . 这 部 分 证 明 有 些 复杂 , 读者 可 以 跳 过 这 一 段 . 对 固定 。 > 0 并 令 z 
为 下 的 连续 点 , 则 


E|Xn = XP og 
E 


F(z) = P(Xn < 2) = P(Xn < 2, X < 2 +€) +P(Xn < 1,X > 2 +e) 
< P(X <rt+e)+P(\Xn -z| > £) 
= F(z +€) +P(|Xn — X| > £). 
另外 


FE(z 一 上 ) = P(X<z-e)=P(X<r—e, Xn <r)+PX <T- €, Xn > 2) 
F,(z) + P(|Xn — X| > £), 


IN 


从 而 
F(a — €) — P(|Xn — X| > £) < F(z) < F(z + €) +P(|Xn — X| > €), 
对 一 co 取 极限 得 
F(@—e) < lim inf Fa(z) < lim sup Fp(z) < F(z +€). 


上 式 对 所 有 < > 0 都 成 立 , 在 上 式 中 对 。 一 0 求 极限 并 利用 F 在 z 处 连续 可 得 
lim Fn(z) = F(z). 
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(c) 的 证 明 , 对 固定 。>0 


P(|Xn 一 c| > €) =P(Xn <c—€)+P(Xn >c+e) 
<P(Xn <c—e)+P(Xn >c+e) 
=Fn(c—é)+1— Fn(c+e) 
—F(c—-é)+1—F(c+e) 
=0+1-1=0. 


下 面 来 说 明 反 向 并 不 成 立 . 

依 概率 收敛 不 能 推出 均 方 意义 下 收敛“ 令 U ~ Uniform (0,1), Xn=Vrl(o,1/n)(V); 
BW P(|Xn| > £) = P(Viloyn(U) > £) = PO < U < 1/n) = 1/n > 0. 因此 ， 
Xn 20, 但 是 对 所 有 有 下 (X2) = n ff du = 1, 所 以 Xn 在 均 方 意义 下 不 收敛， 

依 分 布 收 敛 不 能 推出 依 概率 收效 令 X ~ NN(0,1),Xn = —X, XP n = 
1,2,3,…; 因此 , Xn ~ N(0,1), 即 对 所 有 n, Xn 与 XX 同 分 布 ,所 以 对 所 用 ,lim Fn(z) 
= F(x), 也 就 是 说 , Xn ~ X, 但 是 P(Xn 一 X| > £) = P(l2X| > £) = P(|X| > €/2) # 
0, 也 即 Xn 不 依 概 率 收敛 于 X. 

注意 有 人 也 许 认为 如 果 Xn > b, 则 E(Xn) > b, 这 是 不 正确 的 ". 令 Xn 为 
随机 变量 , 定义 为 P(X, = n?) = 1/n 且 P(Xn=0)=1-(1/n), 则 P(Xn| < £) = 
P(X = 0) = 1- (1/n) 一 了. 因此 Xn 4 0, iif E(Xn) = [n? x (1/n)] + [0x (1-(1/n))], 
因此 E(Xn) 一 oo. 

总 结 仔细 观察 图 5.2. 

某 些 收敛 性 质 在 变换 规则 下 也 成 立 . 

5.5 定理 A Xn, X, Yn Y 为 随机 变量 , 9 为 连续 函数 ， 

(a) 如 果 Xn È X A Yn BY, MW Xn +Yn >X +Y; 

(b) 如 果 Xn 23 X E Yn IY, A] Xn + Yn > X +Y; 

(c) 如 果 Xn > X E Yn ~c, N] Xn +Yn X +c; 

(d) 如 果 Xn È X E Yn BY, RM XnYn > XY; 

(©) 如 果 Xn ~> X E Yn ~ c, R] XnYn ~ cX; 

(f) 如 果 Xn B X A g(Xn) 4 g(X); 

(g) 如 果 Xn ~> X 则 g(Xn) ~ g(X); 

(c) 和 (e) 就 是 Slutzky 理论 , Xn ~ X E Yn ~ Y 通常 都 不 能 得 出 Xn 十 Yn 
X+Y. 


@ 如 果 Xn 一 致 可 积 , 则 能 推 知 E(Xn) 一 b, 详 见 附录 . 
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5.3 大 数 定 理 


接 下 来 讨论 的 议题 可 以 称 为 是 概率 论 中 最 伟大 的 成 果 , 它 就 是 大 数 定律 . 大 数 
定律 指出 大 量 样本 的 均值 近似 于 分 布 的 均值 , 例如 , 无 数 次 投 毛 硬 币 出 现 正面 的 概 
率 趋 近 于 1/2, 下 面 对 该 定理 简要 描述 . 

令 XoXo 为 ID FRA, $ w= EQG) Ho? = V(X). 回忆 前 面 已 经 讨论 
过 的 内 容 : 样本 均值 定义 为 Xn =n PES E(Xn) = p, V(Xn) = 0?/n. 


5.6 定理 ( 弱 大 数 定律 )(the weak law of large numbers(WLLN))? 如果 
Xoi: ,Xn 为 IID 样本 ， 则 Xn > p. 


WLLN 的 含义 : 当 逐渐 变 大 时 , Xn DARRE u 
证 明 BBL o< 00, 该 假设 并 不 是 必需 的 , 但 有 利于 简化 证 明 , 利用 切 比 雪夫 
不 等 式 可 得 ， 


V(Xn) a 


P([Xn- Hl > £) < ~iz 一 


4 n— oo 时 , 上 式 趋 于 0. 

5.7 例 “假定 抛 一 枚 硬币 , 出 现 正面 的 概率 为 p, 令 Xi 表示 每 次 的 结果 (0 或 
D ,因此 , p = P(X; = 1) = E(Xi), 当 抛 n 次 后 正面 次 数 所 占 比例 为 Xn, 根据 大 
数 定律 , Xn 依 概率 收敛 于 p, 它 意味 着 当 n 很 大 时 , Xn 的 分 布 会 紧密 围绕 在 p 的 
附近 . 假设 p = 1/2, 需要 多 大 的 n 才能 使 得 P(0.4 < Xn < 0.6) = 0.7 呢 ? 首先 ， 
E(Xn) = p = 1/2 H V(Xn) = 0?/n = p(1 — p)/n =1/(4n), 由 切 比 雪夫 不 等 式 


P(0.4 < Xn < 0.6) =P(|Xn — y| < 0.1) 


=1-P(|Xn — 4| > 0.1) 
1 25 
kr n 
当 n = 84 时 就 能 保证 上 式 大 于 0.7. 
5.4 中 心 极限 定理 


大 数 定律 指出 Xn 的 分 布 会 聚集 在 u 附近 , 这 还 不 能 描述 Xn 的 概率 性 质 , 为 
此 , 还 需要 中 心 极限 定理 . 
© 注意 , 对 所 有 i, 二 E(X) 事实 上 是 相同 的 , 所 以 可 以 定义 p = E(X), 为 了 方便 起 见 通常 定义 


n =E(X1). 
O 比 它 更 强 的 定理 称 为 强大 数 定律 , 见 附录 . 
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假设 X1,… Xn 为 均值 为 4 方差 为 o? 的 ID 序列 , 中 心 极限 定理 (CLT) 指 
出 Xn =n Xi 近似 服从 均值 为 方差 为 o?/n 的 正 态 分 布 , 这 一 结论 是 非常 卓 


越 的 , 因为 除了 Xi 的 分 布 的 均值 和 方差 需要 存在 的 条 件 外 , 没有 其 他 别 的 条 件 . 


5.8 定理 (中 心 极限 定理 (CLT)) A X1，,… ,Xn AGA y FEA o? 的 ID 
序列 , Xn =n DO Xi, A 
a 


X, 
V(Xn) 


Zn = ~Z, 


_ Vi(Xn - 1) 
o 


HP, Z~N(0,1), RAY BR, FARMS: 


5 = = = 1 —27/2 
„lim P(Zn < 2) = (2) = Í. ggd. 


BM: 有 关 Xn 概率 陈述 可 以 利用 正 态 分 布 来 近似 , 注意 这 仅仅 是 概率 陈述 上 
的 近似 , 而 并 不 是 随机 变量 本 身 . 

除了 Zn ~ N(0,1) Sb, 还 有 其 他 几 个 符号 可 以 表示 Zn 的 分 布 收敛 于 正 态 分 
Ai, 他 们 表达 的 含义 本 质 上 是 一 样 的 , 具体 形式 如 下 : 


Zn =N(0,1), 
ki o? 
Xn aN (u 2) , 

Xn br (o, =) ， 


Vn(Xn — u) =N (0,0°), 
Aaz =) =N(0,1). 


5.9 例 ”假设 每 个 计算 机 程序 产生 误差 的 数量 服从 均值 为 5 的 泊 松 分 布 , 有 
125 个 程序 , 令 X1,… , X12s 分 别 表示 程序 中 的 误差 数量 , R PAn < 5.5), $ u= 
E(X1) =A =5, o? = V(X1) =A=5, W 


P(X, < 5.5) =P (eae -月 < 这) 
~ P(Z < 2.5) = 0.9938. 


中 心 极限 定理 说 明 2Z。 = Vn(Xn — 4)/o 近似 服从 N(0,1), 然而 , 却 很 少 知道 
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o, 后 面 将 介绍 可 以 用 X1,… Xn 的 函数 
1 Š -= 
s= F Lo -X,)? 


去 估计 o. 这 又 产生 了 另外 一 个 问题 : 如 果 用 Sn 去 代替 o, 中 心 极限 定理 还 成 立 
吗 ? 答案 是 肯定 的 . 
5.10 EH MRM CLT 相同 的 条 件 , 则 


Vn(Xn —H) 
=a ~ N(0,1). 


读者 或 许 要 问 , 正 态 近 似 的 精度 有 多 大 呢 ? 答案 将 在 Berry-Essèen 定理 中 
给 出 . 
5.11 定理 (Berry-Essten 定理 ) ”假设 E|Xi)° < co, AI 


33 EX — ul? 


sup [P(Zn < 2) - P(2)| < T aa (5.4) 
中 心 极限 定理 也 存在 多 元 的 情形 . ` 
5.12 定理 (多 元 中 心 极限 定理 ) A Xr ,Xn 为 ID 随机 向 量 , HP, 
Xii 
Xai 
Xi= B 
Xki 
其 均值 为 
m E(X1i) 
bz E(X2i) 
/一 = ; 
Hk E(Xxi) 
方差 矩阵 为 S, A 
x 
= x 
X= A p 
Xr 


其 中 , Xj =n È Xj 则 
i=l 


Va(X - n) ~ N(0, £). 
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5.5 Delta 方法 


如 果 Yn 的 极限 分 布 为 正 态 分 布 , 则 Delta 方法 提供 了 求 9(Y) 极限 分 布 的 方 
法 , 其 中 , 9 为 任意 光滑 函数 . 


5.13 定理 (Delta 方法 ) ”假设 


Mian ~ N(0,1), 


g AT MH RMR g'(u) #0, 则 


Va(g(¥n) - 9(H)) 
wie NO): 


换言之 ， 


Yax N (m Z) som) = N (ow, wr) ; 


5.14 例 令 Xi,… ,Xn 为 具有 有 限 均 值 和 有 限 方差 的 IID 序列 , 根据 中 心 极 
限定 理 , Vi(Xn 一 办 /oc ~~ N(0,1), 令 Wn = ex", Bl Wn = g(Xn), 其 中 , g(s) =e’, 
因为 g(s) = e°, 由 Delta 方法 得 Wn ~ N(er,exg?/n). 

Delta 法 也 存在 多 元 的 形式 . 

5.15 定理 (多 元 Delta 方法 ) ”假设 Yn = (Yn1,… ,Ynk) 为 随机 向 量 序 列 满 
足 

Vn(¥n — u) ~~» N(0, £). 


| ) 
Voy)=] :| 
E 


A V, Ai Voly) Æ y= p Atii Vu IR AER, 则 有 
Va(g(¥n) — 9(u)) ~> NO, Vg 2Y y). 


( Xu ) ( X12 
Xa J’ Xz 人 
是 均值 为 = (m. m)", HHA X 的 随机 向 量 , 令 


i< zy _i< 
=- Xu, X= 2 Xa 
% i=l i=1 


Ag: RF SRE 
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并 定义 Yn = X1 X2, 则 区 = g(X1, X2), 其 中 , g(s1, 82) = s1s2, 根据 中 心 极限 定理 


va( 217"). wos, 
Xo 一 Je 


vore(B)-(2) 


ou al He 
VEV, = (pa, m) 本 = 13011 + 2p1p2012 + pon, 
O21 922 m 


Vn(X1X2 — mm) > N (0, u3011 + 2m p2012 + Hon). 


5.6 文献 注释 


收敛 性 在 现代 概率 理论 中 扮演 了 重要 的 角色 , 更 详细 的 讨论 见 (Grimmett and 
Stirzaker, 1982; Karr, 1993; Billingsley, 1979). 高 等 收敛 理论 在 (van der Vaart and 
Wellner, 1996; van der Vaart, 1998) 中 有 更 详细 的 解释 . 


5.7 附 录 


5.7.1 几乎 必然 收敛 和 Lı 收敛 


如 果 
P({w : Xn(w) > X(w)}) = 1, 

则 称 Xn 几乎 必然 收敛 于 X, 记 为 Xn S X. 

如 果 当 n 一 oo if, 

E|X, — X| > 0, 

则 称 Xn AL 收敛 于 X, 记 为 Xn S X. 

5.17 定理 A Xn 入 为 随机 变量 , 则 

(a) Xn SX 推出 xX, 5 x. 

(b) Xn 3X 推出 Xn Bx. 

(C) Xn BX Rk Xn SX. 

弱 大 数 定律 指出 Xn 依 概 率 收敛 于 E(X), 强大 数 定律 还 指出 Xn 几乎 处 处 收 
BF E(X). 
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5.18 定理 (强大 数 定律 ) A X1,X2,… 为 ID 序列 , 如 果 j= 二 |X1| < oo 则 
Xn Sp. 
如 果 序 列 X 满足 
jim, lim sup E(|Xn|1(|Xn| > M)) =0, 
则 序列 Xn 是 渐 近 一 致 可 积 的 . 
5.19 定理 RX, 5b 且 Xn 是 渐 近 一 致 可 积 的 , 则 E(X,) ob 
5.7.2 ”中 心 极限 定理 的 证 明 


回忆 前 面 的 介绍 , 如 果 X 是 随机 变量 , 则 它 的 矩 母 函数 (MGF) 为 xlt) = 
Petx, 在 下 文中 假设 MGF 在 上 = 0 附近 是 有 限 的 . 

5.20 引 理 A Z, Za 为 随机 变量 序列 , Yn 为 Zn 的 MGF, A Z AF 
一 个 随机 变量 并 定义 其 MGF 为 PRA 0 周围 的 某 个 开 区 间 里 的 所 有 + 有 
Yn(t) > V(t), WI Zn > Z. 

中 心 极 限定 理 的 证 明 $ Y: = (Xi —n)/o, W Zn = n Yi, & ot) 为 
Y; 4 MGF, 则 ZY 的 MGF % (4(t))", Zn 的 MGF % [ġ(t/vn)]" = En(t), 根据 
$(0) = E(Y) = 0, $”(0) = E(Y?) = V(Y1) = 1 可 得 


olt) = $(0) + i (0)+ Faro + Eao +: 
2 
=1+0+ 5 + Faro + 


T A 
= 2 3! ” 


f(t) = -PG al, 


1 g" (0) + a 
+ 
[pa ae else) +7” 
F n 
一 ee 12. 


它 是 N(0,1) 的 MGF, 根据 前 面 的 定理 即 得 所 要 的 结论 . 在 上 面 的 证 明 中 , 最 后 一 
步 用 到 了 如 下 事实 : WR an — a, W 


G + 2%)" 一 en. 


5.8 J 题 


L 令 Xie ,Xn 是 具有 有 限 均值 u = E(X) 和 有 限 方差 0? = V(X) 的 TID FF 

列 . 令 Xn 为 样本 均值 ，S? 为 样本 方差 . 

(a) 证 明 E(S2) = 0°; 

(b) 证 明 52 号 o?. 

提示 :证明 S2 = an- È XP- dy X2, HEA, ca > 1da > 1. An? SS XP A 
i=l i=: 

Xn 运用 大 数 定律 , 然后 使 用 定理 5.5 的 (e) 

A X Xa 为 随机 变量 序列 , 证 明 Xn S o HAN 


Da 


lim E(Xn) = bH lim V(Xn) =0. 


. 令 Xn ,Xn 为 IID 序列 , & p = E(X1), 假设 方差 有 限 , 证 明 Xn Sp. 
Ay X1,X2,… 为 随机 变量 序列 满足 


ao 


1 1 1 
p (Xn= =) =1- 总和 Co = 可 = 而 


试问 : Xn 依 概率 收敛 吗 ? Xn 在 均 方 意义 下 收敛 吗 ? 
令 Xi,- ,Xn ~ Bernoulli(p), 证 明 


1 pyle m 
->_ xX? -xX Sp. 
LSx 5 p= ox? So 


i=1 i=1 


s 


只 


假设 人 的 身高 的 均值 为 68 英寸, 标准 差 为 2.6 英寸 随机 抽取 100 个 人 , 求 这 
些 人 的 平均 身高 至 少 为 68 英寸 的 概率 (近似 ) - 

令 和 n=1/n,n=142,…, 令 Xn 人 ~ Possion(An) 

(a) 证 明 Xn 40. 

(b) & Yn = Xn; WEW Yn = 0. 

假设 某 计算 机 程序 共有 n= 100 页 代码 , 令 Xi 为 第 i 页 上 的 错误 数 , 假设 Xi 
独立 且 服 从 于 均值 为 1 的 泊 松 分 布 , 令 Y = ux 为 总 错误 数 , 利用 中 心 极限 
定理 求 P(Y < 90) 的 近似 值 . 

假设 P(X=1)=P(X= —1)= 1/2, 定义 


x， 概率 为 1 一， 
”| e, ERA, 


x 


Ed 


ba 


试问 Xn 依 概率 收敛 于 XX 吗 ? Xa 依 分 布 收敛 于 XX 吗 ? E(X 一 Xn)? KAF 
0m? 


ES 
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. & Z ~ N(0,1), t > 0, RHE: 对 任意 >0 


rizi > p < FZE, 


将 它 与 第 4 章 的 米尔 不 等 式 比较 . 


- 假设 Xn ~ N(0,1/n), X 为 随机 变量 , 其 分 布 为 


F(z) = 0, Xx <0, 
1, X20. 


试问 Xn 依 概率 收敛 于 X 吗 ? (证 明 它 成 立 或 者 不 成 立 ) ，Xn 依 分 布 收敛 于 
X 吗 ? (证 明 它 成 立 或 者 不 成 立 ) 


-Q X, Xo Xa, Xs,… 为 取 值 为 正 整 数 的 随机 变量 , 证 明 Xn ~ 当 且 仅 当 


lim P(Xn = k) = P(X =k) 


对 所 有 整数 k 成立 . 


: 令 21,22,… 为 TID 随机 变量 , 其 密度 函数 为 f, 假设 P(Z > 0) =1 且 入 = 


lim f(z) > 0, 4 
z. 
Xn =n min{21,.… , Zn}, 


证 明 Xn ~~ Z, 其 中 , Z 服从 均值 为 1/A 的 指数 分 布 . 


. & Xi,-++,Xq ~Uniform(0,1), 令 Yn = X2, R ,的 极限 分 布 . 


Xu ) ( X12 ) E Xin ) 

Xa J’ Xn J’ ? Xan 
为 ID 随机 向 量 , HEA u= (1, u), 方差 为 D, 令 

< ict en ee 

Xis 5 2 Xm a= 5D Xa 


EX Yn = Xi /X2, R Yn 的 极限 分 布 . 


» 试 构造 一 个 例子 , 其 中 , Xn X, Yn 一 但 Xn + Yn 不 依 分 布 收敛 于 天 十. 
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6.1 引 a 


统计 推断 , 或 者 在 计算 机 科学 中 称 为 “学 习 ” 是 指 利用 数据 推断 产生 这 些 数据 
分 布 的 过 程 , 一 个 典型 的 统计 推断 问题 是 : 

给 定 样本 X1,… , Xn ~ F, 怎样 去 推断 F? 

某 些 情况 下 , 只 需 推断 F 的 某 种 性 质 , 如 均值 . 


6.2 参数 与 非 参数 模型 


统计 模型 $ 指 一 系列 分 布 (或 密度 或 回归 函数 ) ,参数 模型 指 一 系列 可 用 有 限 
个 参数 表示 的 T. 例如 , 如 果 假设 数据 来 源 于 正 态 分 布 , 则 该 模型 是 


s= [imo 5 加 人 机 ec- 四 we Re >of, (6.1) 


该 模型 是 双 参 数 模型 . 上 面 将 密度 函数 记 为 f(z; iu 0), 表示 z 是 随机 变 基 的 一 个 取 
值 , 而 u Alo 是 参数 . 一 般 地 , 参数 模型 具有 如 下 形式 : 


$= {f(r;0) :0€0}, (6.2) 


其 中 , 0 表示 在 参数 空间 6 中 取 值 的 未 知 参数 (或 参数 向 量 ) . 如 果 9 Aerie, 但 仅 
关心 其 中 的 一 个 元 素 的 时 候 , 则 称 其 他 参数 为 元 余 参 数 . 非 参 数 模型 指 一 些 不 能 用 
有 限 个 参数 表示 的 T, 例如 Tan = {所 有 CDF} 就 是 非 参 数 模型 ”. 

6.1 例 ( 一 维 参数 估计 ) Q X1,… Xn 为 相互 独立 的 Bernoulli(p) 观察 值 ， 
问题 是 如 何 估 计 参 数 p. 

6.2 例 ( 二 维 参数 估计 ) ”假设 X1,… , Xn ~ F 并 假设 PDFf € g, 其 中 ,$ 
在 (6.1) 式 中 给 出 . 这 种 情况 下 就 有 两 个 参数 u Alo, 目标 是 根据 数据 去 估计 这 两 
个 参数 , 如 果 仅 关心 估计 u 的 值 , 则 /就 是 感 兴趣 的 参数 而 o 就 是 元 余 参 数 . 

6.3 例 (CDF 的 非 参数 估计 ) S Xr ,Xn 是 来 源 于 CDF 为 下 的 独立 观察 
值 , 问题 是 在 假设 Fe Sex = {所 有 CDF} 的 前 提 下 如 何 去 估 计 F. 

6.4 例 ( 非 参 数 密度 估计 ) ” 令 X1,… ,Xn 是 来 源 于 CDF 为 的 独立 观察 
值 , 令 f = Fh PDP. 假设 要 估计 PDFS. 如 果 仅 假设 F E Bmw 是 不 可 能 估计 了 
的 , 需要 假设 的 光滑 性 , 例如 , 假设 f E $ = Svensson, 其 中 , SpaNs 表示 所 


O 参数 模型 和 非 参 数 模型 的 区 别 远 比 这 复杂 , 但 在 这 里 并 不 需要 严格 的 定义 - 
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有 密度 函数 的 集合 
Foon = f; : f (f"(@))Pdz < x}. 


集合 son 称 为 索 伯 列 夫 空间 (Sobolev space) , 它 表示 一 系列 “波动 不 大 ” 的 函 
数 的 集合 . 

6.5 Ø ( 函数 的 非 参 数 估计 ) $ Xr, Xn ~ F. 假定 要 在 仅 假设 p 存在 
的 条 件 下 去 估计 u= E(X1) = /zdF(z), 均值 u 可 以 看 成 是 F 的 一 个 函数 : 记 为 
4 二 了 T(F) = f zdF(z), 通常 情况 下 , 任何 下 的 函数 称 为 统计 泛 函 , 其 他 一 些 统计 泛 
函 的 例子 有 方差 T(F) = f z2dF(X) - (f zdF(z))?, 中 位 数 T(F) = 已 -1(1/2). 

6.6 Ø) ( 回归 , 预测 与 分 类 ) ”假设 有 成 对 的 观察 值 (Xi, Y1), , (Xn, Yn), 如 
Xi 表示 第 i 个 患者 的 血压 , Yi 表示 该 患者 能 活 多 久 . X 称 为 预测 变量 或 回归 变量 或 
特征 变量 或 自 变量 , Y 称 为 输出 变量 或 响应 变量 或 相应 变量 . 称 7(z) = E(Y|X = 2) 
为 回归 函数 . 如 果 假设 + € $, 其 中 , $ 是 有 限 维 的 , 如 直线 集 , 则 称 模型 为 参数 回归 
模型 , 如 果 假 设 + e 3, 其 中 , $ 不 是 有 限 维 的 , 则 称 模型 为 非 参数 回归 模型 . 对 一 个 
新 的 病人 , 根据 他 的 X 值 去 预测 Y 称 为 预测 , 如 果 Y 是 离散 的 (例如 , 生 或 死 ) ， 
则 称 为 分 类 , 如 果 目 标 是 估计 函数 r, 则 称 为 回归 估计 或 曲线 估计 , 有 时 回归 模型 也 
记 为 

Y =1(X) +e, (6.3) 


其 中 , E(e) = 0, 通常 也 用 这 种 方式 来 描述 回归 模型 , 为 进一步 理解 , 定义 。 = Y 一 
r(X), W Y = Y +r(X) -r(X) = r(X) +e. 此 外 , Ele) = EE(e|X) = E(E(Y 一 
7(X))|X) = E(E(¥|X) - r(X)) = E(r(X) 一 r(X)) =0. 

接 下 来 从 什么 问题 入 手 呢 ? 在 多 数 以 介绍 性 为 主 的 教材 中 通常 从 参数 的 统计 
推断 入 手 , 在 本 书 中 , 从 非 参 数 的 统计 推断 入 手 , 然后 再 进入 参数 统计 推断 的 内 容 . 
在 有 些 情况 下 , 非 参 数 统计 推断 比 参数 统计 推断 更 容易 理解 并 且 更 有 应 用 价值 . 

频率 学 派 和 贝 叶 斯 学 派 、 有 和 多 种 方法 研究 统计 推断 , 两 种 主要 的 方法 就 是 古典 
的 频率 统计 推断 和 贝 叶 斯 推断 , 在 后 面 将 对 这 两 种 方法 的 优 缺 点 分 别 作 讨论 . 

基本 符号 WRF = {f(z;9) : 9 € O} 是 一 个 参数 模型 , 记 Po(X € A) = 
Jaf(zig)dz, Eo(r(X)) = /7(z)f(z;9)dz, FIR 0 表示 概率 和 期 望 是 关于 f(x; 0) 的 ; 
它 并 不 表示 对 8 求 平均 , 类 似 地 , 记 Vo 为 方差. 


6.3 ”统计 推断 的 基本 概念 


许多 统计 推断 问题 都 可 以 归 入 以 下 三 类 : 估计 , 置信 集 和 假设 检验 . 在 本 书 的 
余下 章节 将 对 这 三 类 问题 详细 讨论 , 这 里 给 出 这 些 思想 的 简单 介绍 . 
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6.3.1 点 估计 


点 估计 指 对 感 兴趣 的 某 一 单 点 提供 “最 优 估 计 ”. 感 兴趣 的 点 可 以 是 参数 模型 、 
分 布 函数 F, 概率 密度 函数 f 和 回归 函数 > 等 中 的 某 一 参数 , 或 者 可 以 是 对 某 些 随 
机 变量 的 未 来 值 Y 的 预测 . 

为 简化 起 见 ， 记 9 GABA OK On, 4 0 是 国定 且 未 知 的 , 而 估计 依赖 
于 数据 , 所 以 它 是 随机 的 . 

一 般 地 , 令 X1,… Xn 为 从 某 分 布 得 来 的 n 个 TID 数据 点 , 参数 9 的 点 估计 
名 是 Xi, ,Xn 的 函数 : 


On = g(X1,.…* ,Xn), 
估计 基 的 偏差 定义 为 
bias(6,) = Ee(6,) 一 0. (6.4) 
如 果 Ee( 如 ) = 0, 则 称 Ôn 是 无 偏 的 , 无 偏 性 在 以 前 备 受 关注 , 但 如 今 无 偏 性 已 经 不 


被 看 重 了 ; 许多 估计 基 都 是 有 偏 的 . 对 估计 基 的 一 个 合理 要 求 是 当 收集 的 数据 越 来 
越 多 的 时 候 , 它 将 收敛 于 真实 的 参数 值 , 这 一 要 求 见 如 下 定义 : 


6.7 定义 ”如果 所 D0, MER O 的 点 估计 Ôn 是 相合 的 | 
Ôn 的 分 布 称 为 抽样 分 布 , Ôn 的 标准 差 称 为 标准 误差, 记 为 se， 


se = se(6n) = Vv, ). (6.5) 
通常 , 标准 误差 依赖 于 未 知 分 布 F, 在 另外 一 些 情况 下 , se 是 未 知 量 , 但 通常 去 估计 
E, 估计 的 标准 误 记 为 se. 

6.8 例 $ Xi,- , Xn ~Bernoulli(p), Pn = n~! Z Xi, 则 Epn) = n=! DE(X) 
= p, 所 以 Pn 是 无 偏 的 , 标准 误差 为 se = VV(Pn) = Vp — p)/n, 估计 的 标准 误差 
H se = y/p(1 — p)/n 

点 估计 的 质量 好 坏 有 时 用 均 方 误 差 或 MSE 来 评价 , 均 方 误差 定义 为 

MSE = Ee(6, — 0)2. (6.6) 


要 注意 Eo(-) 是 关于 如 下 分 布 的 期 望 而 不 是 关于 9 分 布 的 平均 , 该 分 布 由 数据 得 来 ， 
具体 见 下 


Flr ,7n;0) = [f(zi;0). 
i=l 


6.9 EH MSE 可 写成 如 下 形式 : 
MSE = bias? (ôn) + Ve (Ôn). (6.7) 
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证 明 4 ôn =Eo(6n), IU 


Eo (Ôn — 0)? = Eo (Ôn — On + On — 0)? 
= Eo (Ôn — On)? + 2(8n — O)Ee(On — On) + Eo (Ön — 0)? 
= (ðn — 0)? + Eo (Ên — On)? 
= bias? (n) + Vo (Ên). 


推导 过 程 中 用 到 了 如 下 事实 : Eo (bn — On) = On — On = 0. 

6.10 定理 ”如果 bias 0 HY n— oot} se + 0, MO, ASH, HO, 5 0. 

证 明 如果 bias 一 0 E se — 0, 则 根据 定理 6.9 有 MSE— 0, HEH Ôn SS 9( 定 
义 5.2), 再 根据 定理 5.4 的 (a) 即 得 证 . 

6.11 例 ” 回 到 抛 硬币 的 例子 中 , 因为 Ep(Pn) = p, 所 以 bias= p-p = 0, 
se= yp — p)/n 一 0, 因此 Pn > p, BI Pn 是 一 致 估计 基 - 

今后 将 要 遇 到 的 许多 估计 基 都 近似 服从 正 态 分 布 . 


6.12 定义 ”如 果 


Bn—0 
S ANOD; (6.8) 


则 称 估 计量 Ôn 是 渐 近 正 态 的 . 


6.3.2 ”置信 集 


参数 的 1 - a 置信 区 间 为 区 间 Cn = (a,b), 其 中 , a = a(X1,… ,Xn),b = 
4(X1,… ,Xn) 是 数据 的 函数 , 满足 


P(O E Cn) 21-a, GE. (6.9) 


HANH (a,b) 覆盖 参数 的 概率 为 1 - a, 称 1- a 为 置信 区 间 的 覆盖 

注意 ! C 是 随机 的 而 9 是 固定 的 . 

通常 , 人 们 喜欢 用 95% 的 置信 区 间 , 相应 的 a = 0.05, 如 果 9 是 向 量 则 用 置信 
集 (例如 , 球面 或 者 椭圆 面 ) 代替 置信 区 间 . 

注意 ! 关于 如 何 解释 置信 区 间 很 容易 让 人 迷惑 , 置信 区 间 不 是 对 9 的 概率 陈述 ， 
因为 是 固定 的 而 不 是 随机 变量 . 一 些 教科 书 将 置信 区 间 解 释 如 下 : 如 果 反 复 的 重 
复试 验 , 置信 区 间 将 有 95% 的 机 会 可 以 包括 参数 . 该 解释 并 没 错误 , 但 用 处 不 大 , 因 
为 人 们 很 少 反复 地 多 次 重复 相同 的 试验 , 更 好 的 解释 如 下 ， 

第 1 次 , 对 于 参数 gl, 收集 到 数据 并 建立 了 9586 的 置信 区 间 ; 第 2 次 , 对 于 参 
KO, 收集 到 数据 并 建立 了 9596 的 置信 区 间 ; 第 3 次 , 对 于 参数 03, 收集 到 数据 并 
建立 了 95% 的 置信 区 间 . 继续 这 一 过 程 , 对 一 系列 不 相关 参数 01,02,… 建立 置信 
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区 间 , 则 这 些 置信 区 间 有 95% 的 概率 徐 盖 真实 的 参数 值 ， 这 一 解释 不 需要 反复 地 重 
复 同一 试验 . 

6.13 例 “报纸 每 天 都 会 报道 民意 调查 的 结果 . 例如 , 报道 称 “ 有 83% 的 公众 对 
飞行 员 随身 配备 真 枪 飞行 的 做 法 表示 筑 同 ”， 通常 你 还 会 看 到 诸如 这 样 的 陈述 “该 
调查 有 95% 的 概率 在 4 个 百分点 的 范围 内 变动 ”. 意思 就 是 赞同 飞行 员 随 身 配备 
真 枪 飞行 的 做 法 的 人 数 所 占 的 比例 p 的 95% 的 置信 区 间 是 83% 士 4%， 如 果 以 后 都 
按 这 种 方式 建立 置信 区 间 , WA 95% 的 区 间 将 包括 真实 的 参数 值 ， 即使 每 天 估计 的 
ARE (不 同 的 民意 测验 ) , 这 一 结论 也 是 正确 的 

6.14 例 “置信 区 间 不 是 参数 0 的 概率 陈述 容易 让 人 迷惑 ,考察 (Berger and 
Wolpert, 1984) 中 的 一 个 例子 , 令 9 为 一 固定 且 已 知 的 实数 , X, Xo 为 独立 随机 变 
量 , WE P(X; = 1) = P(X = -1) = 1/2, EX Yi =O+ X; 并 假设 只 观察 到 了 Yı 和 
Yo, 定义 如 下 “置信 区 间 ”( 该 区 间 其 实 只 包括 了 一 个 点 ): 


ou{[ -= 
{Y1 + ¥2)/2}, Yı # Y2- 


可 以 验证 不 管 为 多 少 都 有 Pol < C) = 3/4, 所 以 这 是 一 个 75 名 的 置信 区 间 , 假 
设 重 做 试验 得 到 Yı = 15, Yo = 17, 则 以 上 的 75% 的 置信 区 间 为 {16}， 然而 可 以 确 
信 0 = 16, 如 果 希 望 对 0 进行 概率 陈述 , 可 能 有 PO < ClY1, Y2) = 1, 这 与 称 {16} 是 
75% 的 置信 区 间 并 没有 什么 矛盾 , 但 它 并 不 是 关于 9 的 置信 区 间 . 

第 11 章 将 介绍 当 9 为 随机 变量 时 的 贝 叶 斯 方法 以 及 关于 6 的 概率 陈述 , 特别 
地 , 将 做 这 样 的 陈述 “在 给 定数 据 的 情况 下 , 9 在 Cn 中 的 概率 为 95%”， 然而 , 贝 叶 
斯 区 间 指 的 是 可 信 度 的 可 能 性 , 一 般 来 讲 , 贝 叶 斯 区 间 不 满足 有 95% 的 概率 会 覆盖 
BK 

6.15 例 “在 抛 硬币 的 试验 中 , 令 Cn = (PaE Pate) HH e? = log(2/)/(2n), 
HBT ARK (4.4) 得 , 对 任意 了 


P(pe Cp) >1 一 a- 


因此 , Cn 是 1 一 a 置信 区 间 . 
就 像 前 面 提 到 的 那样 ， 点 估计 通常 具有 极限 正 态 分 布 的 , 这 意味 着 (6.8) 式 成 
立 , 即 Ôn ~ N(b,se?), 在 这 种 情况 下 ， 可 以 通过 如 下 方式 建立 (近似 ) 置信 区 间 . 
6.16 定理 ( 基于 正 态 的 置信 区 间 ) 假设 Ôn = N(0,8?), AD ARRESTA 
4% CDF, za/2 = 87} (1- (a/2)), PP P(Z > za/2) = a/2, 了 (一 za/2 < Z < žaj) =1-a, 
HP Z~ N(0,1), A 


Cn = (Ôn — 20/28; Ôn + 20/28); (6.10) 


OmU 
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则 
Pe(g e Cn) + 1—a. (6.11) 
证 明 $ Zn = On -9)/ 完 ,根据 假设 有 Za ~ Z, 其 中 , Z ~ N(0,1), 因此 
Po(0 € Cn) = Po(On — za/28 < 0 < Ên + 2/28) 


ôn — 8 
= Po (an < = < zon) 


> P(-za/2 < Z < za/2) 
=l1l-a. 
对 于 95% 的 置信 区 间 , a = 0.05, zay2 = 1.96 ~ 2, 可 以 得 到 95% 的 置信 区 间 为 
On + 286. 
6.17 例 4 X1,--- , Xn ~Bernoulli(p), Pa = n7} X> Xi, W V(Bn) = n7? È V(Xi) 
i=1 i=1 
= a? rll -= p) =n? np(1 — p)/n = p(1 — p)/n, 因此 se = yp- p)/n, se = 
Vin (1 = Pn) /n, 根据 中 心 极限 定理 有 Pn < N(p, se), 从 而 , 近似 的 1 一 a 置信 区 间 
为 


Pn E ape = Pn + zapa PEAH, 
与 例 6.15 比较 可 知 , 基于 正 态 的 区 间 较 短 , 它 仅 有 近似 的 大 样本 ) EWB. 


6.3.3 ”假设 检验 

在 假设 检验 中 , 从 缺 省 理论 , 即 原 假设 开始 , 通过 数据 是 否 提供 显著 性 证 据 来 支 
持 拒绝 该 假设 , 如 果 不 能 拒绝 , 则 保留 原 假设 ?. 

6.18 例 ( 检验 硬币 是 否 均 习 ) 令 


X1,.… , Xn ~ Bernoulli(p) 


为 n 次 独立 的 硬币 投 撕 结 果 , 假设 要 检验 硬币 是 否 均匀 , 令 Ho 表示 硬币 是 均匀 的 
假设 , Hi 表示 硬币 不 是 均匀 的 假设 , Ho 称 为 原 假设 ,Hi 称 为 备 择 假设 , 可 以 将 假 
设 写成 

Ho:p=1/2 对 比 Hı:p#1/2. 
如 果 了 = Wn 一 (1/2)| 的 值 很 大 , 则 有 理由 拒绝 Ho, 当 详细 讨论 假设 检验 的 时 候 , 将 
会 确定 出 拒绝 Ho 的 精确 T 值 . 


© 术语 “保留 原 假设 " 由 Chris Genovese 发 明 , 其 他 说 法 有 “接受 原 假设 " 或 者 “不 能 拒绝 原 假设 ” 
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6.4 文献 注释 


统计 推断 内 容 在 很 多 书 中 都 有 涉及 , 初等 的 参考 书包 括 (DeGroot and Schervish, 
2000; Larsen and Marx, 1986), 中 等 水 平 的 参考 书 推荐 读者 参考 (Casella and Berger, 
2002; Bickel and Doksum, 2000; Rice, 1995), 高 级 教程 包括 (Cox and Hinkley, 2000; 
Lehmann and Casella, 1998; Lehmann, 1986; van der Vaart, 1998). 


6.5 K 录 
前 面 置信 区 间 的 定义 需要 Po(0 E Cn) > 1 一 a 对 所 有 be O 都 满足 , 点 态 渐 近 
置信 区 间 需 要 liminf Po(9 € Cn) > 1— a 对 所 有 0 e O 都 满足 , 一 致 渐 近 置信 区 间 
需要 liminf infoee Pe(0 € Cn) > 1 一 a 对 所 有 9 e O 都 满足 , 基于 正 态 的 渐 近 置信 
区 间 是 逐 点 渐 近 置信 区 间 . 
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1.4 Xi, , Xn ~Possion(A), Â = n-! 六 X;, 求 估计 量 的 bias, se 和 MSE. 
i=l 
2. & Xi, ,Xn ~Uniform(0,6), Ô = max{X1,… , Xn}, 求 估计 量 的 bias, se 和 
MSE. 
3.4 XX,… ,Xn ~Uniform(0, 0), 6 = 2X n, 求 估 计量 的 bias, se 和 MSE. 


第 7 CDF 和 统计 泛 函 的 估计 


即将 讨论 的 第 一 个 推断 问题 是 CDF F 的 非 参数 估计 , 然后 估计 统计 泛 函 ( 即 CDF 的 
函数 ) . 例如 , 均值 、 方差 和 相关 性 . 估计 函数 的 非 参数 方法 称 为 巾 入 式 方法 


7.1 经 验 分 布 函数 


令 Xi Xn ~ FW ID 样本 , 其 中 ,下 为 实 直线 上 的 分 布 函 数 , 将 用 经 验 分 
布 函数 估计 F, 定义 如 下 : 


7.1 定义 ”经验 分 布 函数 应 指 在 每 一 个 数据 点 Xi 上 的 概率 密度 为 二 的 CDF, 
用 公式 表示 为 


YX <2) 


F(x) = =, (7.1) 


其 中 ， 
l, Xigz, 
0, Xi>z. 


ru<a-{ 


7.2 Bl ( 神经 数据 ) Cox 和 Lewis(1966) 报告 了 一 种 神经 两 次 起 搏 之 间 的 等 
待 时 间 , 共有 799 个 数据 . 图 7.1 为 经 验 的 CDF 启 ,数据 点 以 垂直 直线 体现 在 图 的 
底部 . 假设 要 估计 等 待 时 间 在 0.4 到 0.6 秒 之 间 的 概率 , 估计 值 为 疡 (0.6) - Ê(0.4) = 
0.93 — 0.84 = 0.09. 

7.3 定理 在 任意 固定 点 Zz 有 


E (Fal (x) )) =F(z), 
v (fs(a)) -OP 
wise -FOU FOO) g 
n 
BB(z) F(z). 
7.4 定理 (Glivenko-Cantelli 定理 ) A X1,- , Xn ~ F, A] © 


sup|Fn(z) — F(z)| Ż 0. 


© 更 简单 地 , sup, |Ên (z) 一 F(2)| 几乎 必然 收 敏 于 0. 
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下 面 将 给 出 一 个 不 等 式 , 它 将 用 于 置信 界 的 建立 . 


e 


05 


0.0 


图 7.1 神经 数据 
每 一 根 垂直 的 直线 表示 一 个 数据 点 , 实 线 是 经 验 分 布 函数 , 实 线 上 下 的 虚线 是 95% 置信 界 . 


7.5 定理 (Dvoretzky-Kiefer-Wolfowitz(DKW) 不 等 式 ) 令 Xi, Xn ~ F, A 
对 任意 e> 0 有 


P (spire) - F,(2)| > 9 <m? (7.2) 


通过 DKW 不 等 式 , 可 以 按 如 下 方式 建立 置信 集 : 
下 的 非 参 数 1 — a 置信 带 


定义 
L(z)= max{Fy(z) — en,0}, 
U(x) = min{F,(2) + €n, 1}, 


e= Va bos(2)- 


P (对 所 有 z,L(z) < F(z) <U(2)) > 1 — a (7.3) 


其 中 ， 


对 任意 F, 由 (7.2) 得 


7.6 例 “图 7 的 虚线 给 出 了 95% 置信 带 ,其 中 en = y = lglg) = 0.048. 
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7.2 S$ it 3 RH 


统计 泛 函 T(F) 是 F 的 任意 函数 , 例如 , 均值 上 = /zdF(z), HH 0? = f(c- 
4p)?dF(z), 中 位 数 m = F-1(1/2). 


7.7 定义 O=T(F) 的 媒人 式 估计 量 定义 为 


ôn =T (Fa). 


换言之 , 就 是 用 经 验 分 布 函 数 Ên RA HK F. 
7.8 定义 ”如果 对 函数 r(z) A T(F)= [7(z)dF(z), 则 称 工 为 线性 泛 函 . 
函数 T(F) = Jr(z)dF(z) 被 称 为 线性 泛 函 的 理由 是 T 满足 
T(aF +6G) = aT(F) + bT (G). 


因此 了 在 它 的 自 变量 范围 内 是 线性 的 . 回忆 前 面 的 介绍 , 在 连续 情形 下 , S r(z)dF(z) 
定义 为 Jr(z)f(z)dz, 在 离散 情形 下 , S r(z)dF(z) 09 Dr (25) f(2;). ZR CDFF, 
J 
是 离散 的 , 在 每 一 个 数据 点 Xi 的 概率 密度 为 i, 因此 , MR T(F) = Jr(z)dF(z) 为 
线性 证 函 , WA 
7.9 EB RUF T(F) = Jr(z)dF(z) 的 嵌入 式 估计 量 为 


T(E) = J r(2)dFn(2) = DrX). 
i=1 


有 时 可 以 通过 计算 求 得 T(Ên) 的 估计 标准 误差 se. 然而 , 在 有 些 情况 下 , 标准 
误差 的 估计 并 不 是 很 显而易见 的 , 下 一 章 将 讨论 求 se 的 一 般 方法 , 本 章 , 假设 可 以 


求 得 se. 
很 多 情况 下 , 如 下 结论 成 立 : 
T(Ên) ~ N(T(F), 8”). (7.5) 
由 (6.11) 式 很 容易 得 到 T(F) 的 近似 1 一 a 的 置信 区 间 为 
T (Fn) + 20/28. (7.6) 


称 该 区 间 为 基于 正 态 的 置信 区 间 , 对 于 95% 的 置信 区 间 , zo/2 = 2005/2 = 
1.96 ~ 2, 所 以 区 间 为 
T (Fn) + 28e. 
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710 例 ( 均值 ) 令 4=T(F) = /zdF(z), 则 均值 的 嵌入 式 估计 量 为 = 
J 2dFn (x) = Xn, 标准 误差 se= VV(Xn) = o/ Vn, MR ô 表示 o 的 估计 , 则 估计 的 
标准 误差 为 8/V (在 下 一 个 例子 中 , 将 讨论 如 何 去 估 计 o), u 的 基于 正 态 的 置信 区 
间 为 Xn E zaps. 

7.11 Bl (方差 ) 40? =T(F) = V(X) = Jz2dF(z)- (JrdF(z))?, 则 方差 


BRAT A 
a= J z?dÊ, (z) — ( J ziña) 
2 
12 e 
1 Š e. 
=; La -¥,)*. 
P BAA RH EAE 
1 Š oe 
S= 二 Doa - Xn). 
实践 中 , 62 和 S2 差别 不 大 , 读者 可 以 任意 选择 一 个 使 用 , 回 到 上 一 个 例子 , 均 


值 估计 对 应 的 标准 误差 为 se = 5/Vn. 
7.12 例 ( 偏 度 ) uA o? 表示 随机 变量 X 的 均值 和 方差, 偏 度 定义 为 


E(X - p)? _ _ /J(z— /dF(z) 
[f(z — u)?aF(2))5/?° 


偏 度 度量 了 分 布 的 偏离 对 称 的 程度 , 为 求 其 代入 式 估计 量 , 首先 记得 fi = n DXi 
HL 6? =n D(X: — A), n KARIA 


fGen) _ VRA -B 
Fe- aae F 
7.13 例 (相关 系数 ) 4 Z= (X,Y), p =T(F) =E(X-ux)(Y -uy)/(ox0y) 
表示 X 和 了 的 相关 系数 , 其 中 , F(z,y) 是 二 元 函数 , 可 记 为 


T(F) = a(Tı (F), To(F), T3(F), Ta(F), Ts(F)), 


其 中 ， 


Tı(F) = /zdF(z), Te(F)=fydF(z), T3(F) = f zydF(z), 
Ta(F) = fx?dF(z), T5(F) = fy?dF(z), 
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并 且 


= t3 — tite 
8) = TO) = 8) 
H Ên RÆ F HHA TF), ,Ts(F) 得 
p = a(T, (Ên), To(Fw), Ts (Ên), Ta (Ên), Ts (Ên)). 


a(t, 


从 而 得 到 
EX: - Xn) (Yi — Yn) 


1 ER Ev -By 


它 称 为 样本 相关 系数 . 

7.14 例 ( 分 位 数 ) 令 POR, 密度 函数 为 ,对 于 0 < p< 1 p 分 位 数 
定义 为 T(E) = F(p), T(F) 的 估计 为 Êr (p), 这 里 要 注意 Ên 是 不 可 道 的 , 为 避 
SRI, 定义 

Ê; (p) = inffz : F(z) > p}, 
6 T (Fa) = Êr (p) 为 第 了 样本 分 位 数 . 

这 里 仅仅 在 第 一 个 例子 中 计算 了 标准 误差, 建立 了 置信 区 间 . 其 他 的 例子 该 如 
何 处 理 呢 ? 当 讨论 参数 方法 的 时 候 , 将 推导 标准 误差 和 置信 区 间 的 公式 . 但 在 非 参 
数 情形 中 需要 借助 其 它 工具 , 下 一 章 将 介绍 计算 标准 误 和 置信 区 间 的 自助 法 

7.15 例 ( 血浆 胆固醇 ) 图 7.2 是 371 个 胸痛 病人 的 血浆 胆固醇 含 基 (mg/dl) 
柱状 图 (Scott et al., 1978). 柱状 图 表示 病人 的 百分比 , 步 长 为 10 个 单位 . 第 一 张 图 
为 51 个 没有 明显 心脏 病 的 病人 的 血浆 胆固醇 含量 柱状 图 , 而 第 二 张 图 为 320 个 有 明 
显 心脏 病 的 病人 的 血浆 胆固醇 含量 柱状 图 . 两 组 病人 的 胆固醇 平均 含量 有 显著 不 同 
吗 ? 可 以 将 数据 看 成 是 来 自 两 个 分 布 i 和 Fo, & yn = /zdFi(z), p = zdF2(z) 
分 别 表示 两 个 总 体 的 均值 , 嵌入 式 估计 量 分 别 为 fr = S 2dFya(@) = Xn = 195.27, 


jin = fxd (2) = Xna = 216.19, 由 前 面 的 介绍 知 , 样本 均值 A= E D Xi 的 标准 
i=l 


REA 
selh) = 中 (Èx) = f Dv =" -= 
i=1 i=1 
通过 下 式 来 估计 : å 
Sli) =F 
其 中 ， 


soil de x 
ô= ne - Xx). 
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对 以 上 的 两 个 组 , 分 别 得 到 Ci) = 5.0, (yi2) = 2.4, p 和 pa 的 近似 95% 的 置信 
区 间 分 别 为 应 土 2 人 (应 ) = (185, 205) 和 pin + 28C(pi) = (211,221). 


i T T T sp, 
100 150 200 250 300 350 400 
没有 明显 心脏 病 的 病人 的 血浆 胆固醇 含量 
100 150 200 250 300 350 400 
有 明显 心脏 病 的 病人 的 血浆 胆固醇 含量 
图 7.2 
第 一 张 图 为 51 个 没有 明显 心脏 病 的 病人 的 血浆 胆固醇 含 量 柱状 图 , 第 二 张 图 为 320 个 有 明显 心脏 病 的 
病人 的 血浆 胆固醇 含量 柱状 图 


现在 来 考察 函数 9 二 T( 忆 ) —T(Fi), 它 的 嵌入 式 估计 为 8= 如 一 各 = 216.19 一 
195.27 = 20.92, 6 的 标准 误差 为 


se = /V(ia — M) = VV fa) + Va) = Vlse(fia))? + (se(iz))， 
其 估计 值 为 


8 = V/(K(i))? + (Ka)? = 5.55. 


6 的 近似 95% 置信 区 间 为 6 + 250(6,.) = (9.8, 32.0), 这 表明 有 心脏 病 的 病人 的 胆 固 
醇 含量 要 高 一 些 . 仅 凭 这 些 数据 还 不 能 得 出 胆固醇 含量 高 引起 心脏 疾病 . 从 统计 显 
著 性 到 结论 是 非常 严密 的 , 这 一 点 将 在 第 16 章 讨论 . 


7.3 文献 注释 
Glivenko-Cantelli 定理 只 是 冰山 一 角 , 分 布 函数 理论 是 经 验 过 程 的 特殊 情况 ， 


经 验 过 程 是 现代 统计 理论 的 基石 , 有 关 经 验 过 程 的 参考 书 见 (Shorack and Wellner, 
1986; van der Vaart and Wellner, 1996). 
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. 证 明定 理 7.3. 
. 令 Xi, , Xn ~Bernoulli(p), Yi,--- , Yn ~Bernoulli(g), K p 的 嵌入 式 估计 量 


和 估计 标准 误 , R p 的 近似 90% 置信 区 间 , 求 p — 9 的 嵌入 式 估计 量 和 估计 标 
准 误差, K p 一 q 的 近似 90% 置信 区 间 . 

(计算 机 试验 ) 从 N(0,1) 分 布 生成 100 个 观察 值 , 计算 CDFF 的 95% 置信 界 ， 
重复 1000 次 并 观察 置信 界 包括 真实 分 布 函数 的 概率 为 多 大 . 用 柯 西 分 布 的 数 
据 重 复 上 述 试验 . 


LAX ,Xn ~ F, 所 (zx) 为 经 验 分 布 函 数 . 对 给 定 的 z, 利用 中 心 极限 定理 求 


反 .(z) 的 极限 分 布 . 

令 z 和 为 两 个 不 同 的 点 , R Cov(Fa(x), Fa(y))- 

A Xi ,Xn ~ F, Ê 为 经 验 分 布 函 数 , 令 a < b 为 两 个 固定 数值 , 定义 9 = 
T(F) = F(b) — F(a), & Ô = T(Fn) = Fa(b) 一 所 (a), 求 6 的 标准 误差 , 并 求 0 
的 近似 1 一 a 置信 区 间 的 表达 式 . 


. 本 书 网 页 上 提供 了 斐济 附近 地 震 大 小 的 数据 , 估计 CDFF(z), 计算 F ky 95% 


置信 域 并 绘 出 图 形 . R F(4.9) - F(4.3) 的 95% 的 置信 区 间 . 

从 互联 网 上 查找 (加 州 ) 老 忠实 喷泉 的 爆发 时 间 和 等 待 时 间 数 据 . 估计 其 平均 
等 待 时 间 并 给 出 该 估计 的 标准 误 . 给 出 平均 等 待 时 间 的 90% 的 置信 区 间 . 估计 
等 待 时 间 的 中 位 数 . 下 章 将 看 到 如 何 得 到 中 位 数 的 标准 误 . 

100 个 人 被 给 标准 抗生素 治疗 传染 而 另外 100 人 被 给 新 抗生素 . 在 第 一 小 组 中 ， 
90 个 人 恢复 ; 在 第 二 小 组 中 , 85 个 人 恢复 . 令 p 为 在 标准 治疗 方法 下 被 治愈 
的 概率 , po 为 在 新 治疗 方法 下 被 治愈 的 概率 . 感 兴趣 的 是 估计 9 = p -p2 给 
出 9 的 一 个 估计 及 其 标准 误 ; 并 分 别 给 出 9 的 80% 和 90% 的 置信 区 间 . 

1975 年 , 进行 了 一 项 针对 云彩 喷洒 是 否 会 导致 降雨 的 试验 ，26 块 云彩 喷洒 了 
硝酸 银 而 另外 26 块 不 喷 。 是 否 喷 洒 则 是 随机 确定 的 . 数据 可 以 在 网 页 http: 
lib.stat.cmu.edu/DASL/Stories/CloudSeeding.html 获得 . 

令 9 为 这 两 个 组 平均 降水 量 之 差 . 估计 9 并 估计 其 标准 误 , 构造 其 95% 的 置信 
区 间 . 
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Bootstrap 方法 是 一 种 估计 标准 误差 和 计算 置信 区 间 的 方法 . 令 T = g(X1,…， 
Xp) 为 一 个 统计 量 , 即 ,，T, 是 样本 数据 的 任意 一 个 函数 ， 假 设 希 望 知道 Th 的 方 
9 Ve(T,), 采用 记号 V 是 为 了 强调 方差 取决 于 未 知 的 分 布 函数 F. AM, 如 果 
Ta = Xn, W Ve(Tn) = o?/n, 这 里 o? = f(x—p)*dF(z), p= J zdF(z). 因此 , Tn 
的 方差 是 F 的 函数 . Bootstrap 方法 的 思想 有 两 个 步骤 

步 又 1; FA Vp, (Ta) 估计 Ve (Ta). 

步 又 2: 用 随机 模拟 方法 近似 求 出 VR (Ta). 

对 于 Ty = Xp, HEBEL PATLURI Vp, (Ta) = 人 /nm HE 0? = nt (Ki = 
区 ,在 这 个 例子 中 , LHL 就 足够 了 . 但 是 , 在 许多 更 加 复杂 的 例子 中 , 无 法 写 出 
VR (Ta) 的 简单 公式 , 这 就 是 为 什么 还 需要 步 又 2. 在 继续 介绍 之 前 , 首先 讨论 一 下 
随机 模拟 的 思想 . 


8.1 随机 模拟 


假设 从 分 布 G 中 抽取 了 独立 同 分 布 的 样本 Yis ,YB. 由 大 数 定律 , 当 B 一 00 
时 ， 


B 
Yn = BLY 2 [vac EY). 
因此 如 果 从 G 中 抽取 一 个 大 样本 时 , 可 以 用 样本 均值 Yo 来 近似 估计 EY). 在 随 
机 模拟 中 , 可 以 使 得 B 尽 可 能 的 大 , 这 种 情况 下 , Yo 和 EO) 的 差 可 以 忽略 . 更 一 般 
地 , 如 果 h 是 期 望 有 限 的 任 一 函数 , 则 当 B 一 oo 时 ， 
1< P 
z J ronco = B00). 
特别 地 ， 
rg 2 id iAV 


2 frarw)- (J wrw) =v). 


因此 , 可 以 用 随机 模拟 值 的 样本 方差 来 近似 估计 VY). 
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8.2 Bootstrap 方差 估计 


根据 上 述 方法 , 可 以 通过 随机 模拟 近似 求 出 Va, (Tn). 这 里 Va (Tn) 是 数据 服 
从 所 分 布 时 Ta 的 方差 . 假设 数据 服从 Fn 分 布 时 , 如 何 随机 模拟 Th 的 分 布 ? 解 
决 方法 是 , 根据 Fn 随机 模拟 XT, o Xa 然后 计算 Ta = g(X?，,… Xn). 这 等 同 于 
从 Ta 的 分 布 中 抽取 . 这 一 思想 可 以 用 下 面 的 图 表 说 明 : 


实际 情况 F > XXn > Ta=g(Xn Xn) 
Bootstrap 方法 Fy > Xpo, Xi > Tr =9(Xi,--- Xn) 


如 何 从 Ên 模拟 X?,… , X* 呢 ? 注意 到 Fn 是 每 个 点 X1，,… Xn 的 概率 密度 为 1/m. 
因此 , 从 By 中 抽取 一 个 观测 等 同 于 从 原来 的 数据 集中 随机 抽取 一 个 观测 . 因此 , 随 
机 模拟 X*,… Xt ~ Fy 相当 于 从 X1,… Xn 中 有 放 回 的 抽取 个 观测 . 下 面 是 
小 结 : 


Bootstrap 方差 估计 


1. 从 所 .分布 中 抽取 XZ, XA 

2. HH Te = g(X?,… XA) 

3. 重复 第 1 步 和 第 2 步 已 次 ,得 到 Ti. Th, 
4.4 


Moot = BD Safe) . (8.1) 


8.1 例 “下 面 的 代码 说 明了 如 何 使 用 Bootstrap 方法 来 估计 中 位 数 的 标准 差 
中 位 数 的 Bootstrap 方法 
给 定数 据 X=(X(1), «++, X(n)): 


T < 一 median(X) 

Tboot < — vector of length B 

for(i in 1:B){ 
Xstar <— sample of size n from (with replacement) 
Tboot [i] <— median(Xstar) 
} 


se < 一 sqrt(variance(Tboot)) 
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下 面 的 概要 图 提示 要 用 到 两 个 近似 ， 


not so small small 


Vr(In) > Vg, (Ta) A vooot- 


8.2 例 考虑 神经 元 的 数据 . 4 0 = TUF) = [(z -jadF(z)/ca 为 偏 度 . ABE 
是 不 对 称 程度 的 度量 . 例如 , 正 态 分 布 的 偏 度 为 0. 偏 度 的 嵌入 式 估计 为 
工 中 (Xi Za)? 


6=T(F,) = Se- 人 ae -ra =1.76. 


用 Bootstrap 方法 估计 标准 差 可 以 遵循 中 位 数 例 子 中 同样 的 步 又 , 只 是 要 计算 每 个 
Bootstrap 样本 的 偏 度 . 用 B = 1000 个 重复 的 样本 , 把 Bootstrap 方法 应 用 到 神经 
元 数据 , 得 到 偏 度 的 标准 差 为 0.16. 


8.3 Bootstrap 置信 区 间 


有 几 种 方法 可 以 构建 Bootstrap 置信 区 间 . 这 里 讨论 3 种 方法 . 
方法 1 正 态 区 间 法 最 简单 的 方法 是 正 态 置信 区 间 
Th + Za/25€boot: (8.2) 
其 中 , voot = Voor 是 标准 差 的 Bootstrap 估计 . 这 个 区 间 并 不 很 精确 , 除非 Tr 的 
分 布 接近 正 态 分 布 . 
方法 2 ” 枢 轴 量 法 置信 区 间 4 9 =T(F) A 6, = T(n), 并 且 定 义 枢 轴 量 为 
Rn = Ôn — 0. 用 名 1，,… s Âi B 表示 Ôn 的 Bootstrap 复 本 . 令 H(r) 为 枢 轴 量 的 分 布 
函数 : 
H(r) = Pr(Rn < r). (8.3) 
定义 Ch = (a,b), 其 中 ， 
a=6,-H-"(1-$), b=ê -H7 ($). (8.4) 
于 是 得 到 
P(a < 0 <b) = P(a — În < 0 — Ôn < b — On) 
= PO, — b < Ôn — 0 < Ôn — a) 
= PG, -b < Rn < Ôn — a) 
= H(6n — a) — H (n — b) 
=a (1°05) -H (a= (5) 


a a 
=1-3 77717 
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因此 , C 是 6 的 1 一 a 的 精确 置信 区 间 . 虽然 这 里 的 a 和 。 依赖 于 未 知 的 分 布 H, 
但 是 仍 可 给 出 H 的 Bootstrap 估计 


B 
Ar) = 5 1B <r), (85) 
b=1 


其 中 , Ray = Do -Ân O orh BA (Raa, Rip) 的 B 百 分 位 数 , 令 05 表示 
Oras Ona) 的 B 百 分 位 数 , 所 以 r3 = 05 — Ôn. 因此 , 1 — a 的 近似 置信 区 间 为 
Cn = (4,6), 其 中 ， 


因此 , 1 — a 的 Bootstrap 枢 轴 置信 区 间 为 
Cn = (Ôn — 03 aya n 一 Fn) (8.6) 
8.3 定理 4 T(F) 满足 一 定 的 条 件 , 24 n oo 时 ， 
Pr(T(F) € Ca) 一 1 一 am 


HP, Cn 由 (8.6) 给 出 . 
方法 3 分 位 区 间 法 ”Bootstrap 百 分 位 数 区 间 定 义 为 


Cn = (O22 asa). 


这 个 区 间 的 证 明 在 附录 中 给 出 . 
8.4 例 “估计 神经 元 数据 的 偏 度 估计 , 可 以 有 各 种 不 同 的 置信 区 间 . 
方法 95% 的 置信 区 间 
正 态 (1.44, 2.09) 
枢 轴 (1.48, 2.11) 
分 位 数 (1.42, 2.03) 


这 些 置信 区 间 都 是 近似 的 . T(E) 在 这 些 置信 区 间 内 的 概率 并 不 恰好 是 1 — a. 
这 三 个 置信 区 间 的 精度 相同 . 还 有 一 些 其 他 的 更 精确 的 Bootstrap 置信 区 间 , 但 比 
较 复杂 , 在 这 里 就 不 作 讨论 了 . 

8.5 例 血浆 胆固醇 数据 . 回 到 血浆 胆固醇 的 数据 . 假设 感 兴趣 的 是 研究 中 位 
数 的 差异 . Bootstrap 的 程序 代码 如 下 : 
x1 <— first sample 
x2 < 一 second sample 
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nl < 一 length(x1) 
n2 < 一 length(x2) 
th.hat < 一 median(x2)-median(x1) 
B <— 1000 
Tboot < — vector of length B 
for(i in 1:B){ 

xxl <— sample of size n1 with replacement from x1 

xx2 <— sample of size n2 with replacement from x2 

Tboot [i] < — median(xx2)-median(xx1) 

} 
se < 一 sqrt(variance(Tboot)) 
Normal < — (th.hat-2*se, th.hat+2*se) 
Percentile < — (quantile(Tboot, 0.025), quantile(Tboot, 0.975)) 
Pivotal <— (2*th.hat-quantile(Tboot, 0.975), 2*th.hat-quantile(Tboot, 
0.025)) 

点 估计 为 18.5, Bootstrap 标准 差 为 7.42, 所 以 95% 的 置信 区 间 大 约 为 由 于 这 
些 置信 区 间 不 包含 0, 第 二 组 的 胆固醇 要 高 一 点 , 但 是 高 多 少 不 能 由 置信 区 间 的 宽 
度 反应 出 来 . 


方法 95% 的 置信 区 间 
ES (3.7, 33.3) 
枢 轴 (5.0, 34.0) 
分 位 数 (5.0, 33.3) 


下 面 两 个 例子 是 基于 小 样本 的 , 在 实际 中 , 基于 非常 小 的 样本 统计 方法 很 少 . 把 
这 些 例子 放 到 本 书 中 就 是 为 了 引起 大 家 注意 , 要 带 着 怀疑 的 态度 解释 这 些 结果 . 

8.6 例 fF Bootstrap 方法 的 发 明 者 ，Bradley Efron 给 出 了 一 个 用 于 解释 
Bootstrap 方法 的 例子 . 这 些 数据 是 LSAT 分 数 (法 学院 的 入 学 考分 ) 和 GPA. 


LSAT 576 635 558 578 666 580 555 661 
651 605 653 575 545 572 594 

GPA 3.39 3.30 2.81 3.03 3.44 3.07 3.00 3.43 
3.36 3.13 3.12 2.74 2.76 2.88 3.96 


每 个 数据 点 的 形式 为 Xi = (Yi, Zi), 这 里 Yi = LSATi, Zi = GPAi. 法 学 院 关心 
的 是 相关 系数 
S Sy = uy)(z = uz)dF ly, 2) 


0= 
VJ@-mr)jzdF(y)J(z 一 nz)zdF(z) 


86 第 8 章 Bootstrap 方法 


它 的 嵌入 式 估计 是 样本 相关 系数 
L(Y: - ¥)(Z - Z) 


6 = =, 
JX -YP D(z: — Z)? 


相关 系数 的 估计 值 为 9 = 0.776. ÆF B = 1000 的 Bootstrap 可 以 得 到 & = 
0.137. 图 8.1 给 出 了 原始 数据 和 复 本 分,… ,个 的 直方 图 ， 这 个 直方 图 是 样本 分 
布 6 的 近似 . 95% 的 正 态 置信 区 间 为 0.78 土 2 多 = (0.51, 1.00), 而 百 分 位 置信 区 间 为 
(0.46, 0.96). 当 样本 量 很 大 的 时 候 , 这 两 个 置信 区 间 的 值 会 非常 接近 . 


3.4 


GPA 


560 580 600 620 640 660 
LSAT 
2 
2 
员 
> ee 
02 04 06 08 1.0 
Bootstrap 样 本 
图 8.1 法 学 院 数据 


上 图 说 明了 原始 数据 . 下 图 是 根据 Bootstrap 样本 计算 的 相关 系数 的 直方 图 


8.7 例 ”这 个 例子 来 自 (Efron and Tibshirani, 1993). 当 药 剂 公司 推出 新 药 时 ， 
有 时 会 要 求 出 示 新 药 的 生物 等 效 性 . 这 表示 新 药 不 是 完全 区 别 于 当前 的 治疗 方式 . 
有 一 个 数据 来 自 向 血液 中 注入 荷尔蒙 的 八 类 药片 . 每 一 类 有 3 种 治疗 方法 : 安奈 
剂 、 老 配方 和 新 配方 . 

& Z= 老 配方 - ZER, Y = 新 配方 - 老 配 方 . 美国 食品 药物 管理 局 (FDA) 
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对 生物 等 效 性 的 要 求 为 |g| < 0.20, 其 中 ， 


o = EEY) 
Er(Z) 

类 别 安慰 剂 老 配 方 新 配方 老 配方 -EBA 新 配方 一 旧 配 方 
1 9243 17649 16449 8406 —1200 
2 9671 12013 14614 2342 2601 
3 11792 19979 17274 8187 —2705 
4 13357 21816 23798 8459 1982 
5 9055 13850 12560 4795 一 1290 
6 6290 9806 10157 3516 351 
7 12412 17208 16570 4796 一 638 
8 18806 29044 26325 10238 一 2791 


37 
eṣ 
g4 
SA T r 1 r 1 
-03 -02 -0.1 0.0 oa 0.2 
Bootstrap 样 本 
图 8.2 批 处 理 数据 
9 的 嵌入 估计 为 
> Y _ —452.3 
0= Z“ 3p = —0.0713. 


Bootstrap 标准 差 为 & = 0.0105. 为 了 回答 生物 等 效 性 的 问题 , 计算 置信 区 间 . 从 
B = 1000 个 Bootstrap 复 本 , 可 以 得 到 95% 的 百 分 位 区 间 (一 0.24,0.15). 这 并 不 是 
完全 包含 在 区 间 (—0.20,0.20) 中 , 所 以 在 95% 的 水 平 下 , 不 能 证 明生 物 等 效 性 . 图 
8.2 表明 了 Bootstrap 值 的 直方 
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8.4 文献 注释 


Bootstrap 方法 是 Efron(1979) 发 明 的 . 到 目前 为 止 , 已 经 有 一 些 书 是 关于 这 个 
论题 的 , 包括 (Efron and Tibshirani, 1993; Davision and Hinkley, 1997; Hall, 1992; 
Shao and Tu, 1995). 同时 , 见 3.6 节 的 (van der Vaart and Wellner, 1996). 


8.5 附 录 


8.5.1 J) ik (Jackknife) 


还 有 一 种 计算 标准 差 的 方法 , 称 为 刀 切 法 (the Jackknife) , 由 Quenouille 在 
1949 年 提出 ， 他 的 计算 量 小 于 Bootstrap 方法 , 但 是 不 如 Bootstrap 方法 常用 . 令 
Tn = T(X1,… ,Xn) 为 一 个 统计 量 , T- 表示 删 去 第 i 个 观测 的 统计 量 . 令 T = 
mS Toy 则 var(Ta) 的 刀 切 法 信 计 为 


n-1< me 
Yack = =— D (T — Ta)? 
= 


标准 差 的 刀 切 法 估计 为 

jack = VUjack. 
在 适当 条 件 下 , 可 以 证 明 visek 是 var(Tn) 的 一 致 估计 , 即 ,满足 wack/var(Tu) => 1. 
但 是 , 和 Bootstrap 不 同 的 是 , 刀 切 法 得 不 出 样本 分 位 数 的 标准 差 的 一 致 估计 . 
8.5.2 ” 刀 切 法 的 百 分 位 数 置信 区 间 

假设 存在 单调 变换 U = m(T), 使 得 U ~ N, e), 其 中 , $ = m(0)， 这 里 并 
不 假定 已 知 变换 是 什么 , 只 是 知道 该 变换 存在 . & UZ = mOn.) & uj de UP W 
有 样本 分 位 数 ， 由 于 单调 变换 保持 分 位 数 不 变 , 就 有 ud). = mO). M, 由 于 
U ~ N(ġ,°), U 的 a/2 分 位 数 为 $ 一 zay2c， 因 此 , uz = 9 一 zay2c， 类 似 地 ， 
好 -wa = Ê + zay2c 因此 ， 
P(0%/2 < 0 < 01_a2) = P(m(0%/2) < MO) < m(01_a/2)) 

= Pu < $ < ui-o2) 

= P(U — cza/2 < $ < U + cza2) 

=P (sn < 


=l-a. 


= é < zan) 


完全 精确 的 正 态 变换 很 少 存在 , 但 是 可 能 存在 近似 的 正 态 变换 . 


8.6 


a 


x 


> 


a 


a 


x 


8.6 YJ 题 


考虑 例 8.6 中 的 数据 . 求 出 相关 系数 的 散 入 估计 . 用 Bootstrap 方法 估计 标准 
误差 . 用 正 态 、 枢 轴 和 分 位 数 法 求 出 95% 的 置信 区 间 . 

(计算 机 试验 ) ”用 随机 模拟 比较 不 同 的 Bootstrap 置信 区 间 方 法 . = n= 
50, 并 令 T(F) = f(z 一 War/ 为 偏 度 . 抽取 随机 样本 使 得 Yi, - 

N(0,1), $ Xi = ei,i= 1,… ,n. 根据 数据 X1,… Xn, 为 T(F) Melee 
型 的 95% 的 Bootstrap 置信 ct, 重复 整个 过 程 若干 次 , 估计 这 三 个 区 间 的 真 
实 值 . 
令 

Xie ,Xn ~ ts, 


其 中 n= 25. 令 09=T(F) = (40.75 一 qo.25)/1.34, 其 中 gp 表示 第 p 百 分 位 数 , 做 
模拟 , 比较 下 面 关 于 9 的 置信 区 间 的 及 其 长 度 . (i) Bootstrap 方法 的 标准 差 的 
正 态 置信 区 间 . (ii) Bootstrap 方法 的 分 位 数 置信 区 间 和 (iii) Bootstrap 方法 的 
枢 轴 置信 区 间 . 

X1,… ,Xn 是 独立 的 观测 (没有 关联 ) . 证 明 可 抽出 


2n-1 
n 
个 不 同 的 Bootstrap 样本 . 
提示 : 想象 把 ”个 球 放 进 n 个 篮子 里 . 


e Xii ,Xn 是 独立 的 观测 (没有 关联 ) ，XT，… XR 表示 Bootstrap 样本 , 且 


X an $x RH EIX, Xn), V(X |X Xn), E(X,), V). 


. (计算 机 试验 ) 令 Xn ,Xn ~ Normal(y1,1). 4 0 = et 和 日 = ex. 创建 一 个 


包含 100 个 观测 的 数据 集 (用 p=5). 

(a) 用 Bootstrap 方法 求 出 se 和 9 的 95% 的 置信 区 间 . 

(b) Hii} Bootstrap 复 本 的 直方 图 . 这 是 6 分 布 的 一 个 估计 . 并 与 8 的 真实 样 
本 分 布 进行 比较 . 

令 Xi,- , Xn ~ Uniform(0,0). 4 Ô = Xmax = max{X1,… ,Xn}. 用 0=1 创 

建 样本 量 为 50 的 一 个 数据 集 . 

(a) 找 出 8 的 分 布 . 把 8 的 真实 分 布 与 Bootstrap 得 出 的 直方 图 进行 比较 . 

(b) 这 是 Bootstrap 方法 效果 不 好 的 一 个 例子 . 事实 上 , 可 以 证 明 事实 正 是 如 
此 . 证 明 尽管 PO = 0) ~ 0.632, 但 是 P(O = 8) = 0. 
提示 : 证 明 P@ = 0) = 1- (1- (1/n))", 然后 当 n 很 大 时 取 极 限 . 
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8. & Ty = Ka = E(X1) 0% = f |e — pdrF(e) 和 a = miS -Xal 证 
明 


na alein | a 一 


第 9 章 参数 推断 


现在 来 关注 参数 模型 , 模型 的 形式 为 
$={f(2;0) :0 € 9}, (9.1) 


其 中 , O CR! 是 参数 空间 , 9 = (91,… ,0k) 为 参数 . 因此 , 推断 问题 简化 为 9 的 参 
数 估计 问题 . 

学 生 在 学 习 统计 时 经 常会 问 : 怎样 能 确定 生成 数据 的 分 布 是 某 种 参数 模型 呢 ? 
这 是 非常 好 的 一 个 问题 . 实际 上 , 很 难 知道 这 一 点 , 这 也 是 为 什么 非 参数 方法 要 更 
好 的 原因 . 但 是 , 学 习 参 数 模型 的 方法 仍然 非常 有 用 , 有 两 点 原因 . 首先 , 根据 有 些 
案例 的 背景 知识 可 以 假定 数据 近似 服从 某 种 参数 模型 . 例如 , 根据 先 验 可 以 知道 交 
通 事 故 发 生 的 次 数 近似 服从 泊 松 分 布 . 其 次 , 参数 模型 的 推断 概念 为 理解 非 参 方法 
提供 了 背景 知识 . 

在 下 一 节 中 将 会 简单 讨论 一 下 关注 参数 和 元 余 参数 . 同时 , 会 讨论 两 种 9 的 参 
数 估 计 方 法 , 矩 估 计 方 法 和 极 大 似 然 估 计 法 . 


9.1 关注 参数 


人 们 常常 只 是 关心 某 一 函数 TO). Bm, 如果 X ~ N(u,0?), 那么 参数 就 是 
9 = (m0). 如 果 目 标 是 估计 u 那么 u= T(0) 就 称 为 关注 参数 , 而 o 称 为 元 余 参 数 . 
关注 参数 可 能 是 9 的 一 个 复杂 函数 , 就 如 下 面 的 例子 中 的 一 样 . 

9.1 Bl 令 Xi,---,Xn ~ N(u,07). 参数 为 9 = (u,0), 参数 空间 为 8 = 
{(1,0) +E Ryo > 0}. 假设 X: 是 血液 检验 的 结果 , 感 兴趣 的 是 T, 是 检验 值 超过 1 
的 人 数 的 比例 . 令 2 表示 标准 正 态 随 机 变量 , 则 


r= P(X > 1) =1-PX D1? (Lt) 
o o 
=1-P(z< 1#) -1-0 (1#). 
o o 


关注 参数 为 7*=T(Uuc) =1- S((1 — )/o). 
9.2 例 WMF X ARA Gamma(a, 8) 分 布 , 则 


f(r; 8) = array" -le-z/6，z> 0， 


其 中 a, 6 >0 = 
T(a) =f yle vdy 
0 
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为 Gamma 函数 . 参数 为 9 = (ov A). Gamma 分 布 经 常用 于 对 人 、 动 物 和 电器 设备 
的 寿命 进行 建 模 . 假设 想 要 估计 平均 寿命 , 则 


Gamma(a, 8) = Ee(X1) = aß. 
9.2 Æ fi. it 


讨论 的 第 一 种 参数 估计 方法 为 矩 估计 法 . 可 以 看 出 这 些 估计 并 不 是 最 优 的 , 但 
是 最 容易 计算 . 它们 也 可 以 作为 其 他 需要 循环 几 次 的 算法 的 初始 值 . 
假设 参数 9 = (01,… ,0k) 有 上 大 个 元 素 . 对 于 1 < j < k, EX J WER 


aj = a;(0) = Eo(X4) = | zidFy(z). (9.2) 


而 了 BY PRA 
= x. (9.3) 


9.3 定义 OITA On, 使 得 


aa) = ân 
a(n) = âz, 
(9.4) 
arn) = âr- 
公式 (9.4) EMT HA k 个 未 知 参数 的 上 个 方程 的 方程 组 . 
9.4 例 4 Xi, , Xn ~ Bernoulli(p). Wl a1 = Ep(X) =p H âi =n ASX. 
i=1 
让 它们 相等 可 以 得 到 估计 什 A 
in = a 
9.5 B) 令 X1,… , Xn ~ Normal(y, o 2), 则 aa = Ee(X) =p, az = Eo(X?) = 
Vo(X1) + (Eo(X))? = o ane 现在 需要 解 下 述 方程 ?: 
i= =X 


© IZE V(X) = E(X?) — (E(X))?, 因此 E(X?) = V(X) + (E(X))?. 
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这 是 由 两 个 方程 组 成 含有 两 个 未 知 参 数 的 方程 组 . 它 的 解 为 


n= xX, 


9.6 EH An, 表示 给 估 计 . 在 适当 的 条 件 下 , 下 述 成 立 : 

1. thit Ôn 以 接近 概率 1 存在 . 

2. 这 个 估计 是 相合 的 : O, D 0. 

3. 这 个 估计 是 渐进 正太 的: 

Vii(6n — 0) ~» N(0, 5), 
其 中 ， 
E = 9Eo(YYT)9T， 

Y =(X,X?,---,X*)T, g= (g1,** ,gk), gj = O05 1(0)/00. 

定理 最 后 一 条 可 以 用 于 求 标准 差 和 置信 区 间 . 然而 , 有 比 这 更 加 简单 的 方法 : 
Bootstrap 方法 . 本 章 结尾 再 来 讨论 这 种 方法 . 


9.3 极 大 似 然 估计 


在 参数 模型 中 , 最 常用 的 参数 估计 方法 是 极 大 似 然 估 计 法 . 令 XI，,… Xn 独立 
同 分 布 于 概率 密度 函数 f(z; 0). 


9.7 定义 似 然 画 数 定义 为 


£n(0) = II/f(Xi;0). (9.5) 


i=l 
对 数 似 然 函数 为 Ln(9) = log Ln (0) 


对 数 似 然 函 数 是 数据 的 联合 密度 函数 , 只 是 把 它 看 作 是 参数 9 的 一 个 函数 因 
此 , Cn : O — [0, oo]. 但 是 似 然 函数 并 不 是 一 个 密度 函数 . 一 般 来 说 , 对 Ln (0) 关于 
9 的 积分 并 不 等 于 1. 


9.8 定义 ” 极 大 似 然 估计 MLE, 记 为 gw, 是 使 得 Cn(g) 最 大 的 9 的 值 . 
bn (0) 和 Ln(9) 在 同一 个 点 取得 最 大 值 , 因此 , 最 大 化 对 数 似 然 函 数 就 可 以 最 大 
化 似 然 函 数 . 通常 , 对 数 似 然 函数 求解 要 容易 一 点 . 


9.9 注 将 Cn(9) 乘 以 一 个 正常 数 c ( 它 并 不 依赖 于 0), 并 不 会 改变 极 大 似 然 
估计 MLE. 因此 , 经 常 去 掉 似 然 函数 的 常数 . 
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9.10 B) 假设 Xi,- , Xn ~ Bernoulli(p). 概率 密度 函数 为 f(z;p) = pe(1 一 
p), 其中, z = 0,1. 未 知 参数 为 p, 则 


Ln(p) = [[ A(X; p) = J] - p) = pS — py. 
ist 


i=l 
HH, S= Dx. 因此 ， 
np) = Slog p + (n — S) log(1 — p). 
对 ln (p) RF, 并 令 其 等 于 0, 求 出 极 大 似 然 估计 Dn = S/n, 见 图 9.1. 


0.0 02 04 06 08 1.0 


图 9.1 ABARREK 
n= 20,55 = 12, 极 大 似 然 估计 为 二, = 12/20 = 0.6 
各 


9.11 例 TEBE Xn Xn ~ N(u,07). 参数 为 9 = (po), 似 然 函 数 (忽略 党 
数 项 ) 为 


Lalo) = J] > exp -2a X: ~ 1)? 
nse gh Fo 


a nS? n(X — u)? 
ad on {Fe for {SS}, 
He, X =n JO X 是 样本 均值 , 5? =n 》 (X-X). 最 后 一 个 等 式 成 立 是 因 
»# J (Xiu)? = nS? (Ky)? 而 它 可 以 通过 Dw)? = SKK Xn)? 
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展开 得 到 . 对 数 似 然 函数 为 


tn(10) = —nlogo — 53 — 


202 20? 
解 方程 
Glo) _ Belo) _ 
Op =0, ôo N 


TARE i= X, = S. 可 以 证 明 它们 是 全 局 极 大 似 然 值 . 


lx;0) 
fao) 


1.5 


1.0 


Sra) 
£n(8) 


0.5 


0.0 


@=1.25 


图 9.2 均匀 分 布 (0,9) 的 似 然 函数 
纵 轴 表 示 观 测 到 的 数据 . 前 三 张 图 给 出 了 三 个 不 同 9 值 的 f(z; 0). 当 0 < z(n) = max{X1,… , Xn} 
正如 第 一 张 图 , f(X(n);9) = 0, 因此 Cn(9) = 工 [7(CXs; 96) = 0. 否则, 对 于 每 个 记 有 f(Xi;9) = 1/8, 因 
isl 


此 , Ln(9) = TI SF (Xi; 8) = (1/0). 最 后 一 张 图 表示 似 然 函数 


i=l 
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9.12 例 (一 个 难题 ) 这 个 例子 很 多 人 都 容易 混淆 . 令 X1,--- , Xn ~ Uniform(0, 
9). 均匀 分 布 的 概率 密度 函数 为 


f(z;0)= { i ie =o 


考虑 一 个 固定 的 9 值 假设 对 于 某 一 个 i 有 0 < X. 则 f(Xi;9) = 0, 因此 
Ln(0) = TT (X50) = 0. 对 任意 的 X: > 9, W Ca(9) = 0. 因此 , 如 果 0 < Xin, 就 


有 Cn(0) = 0, 这 里 Xin) = max{ Xi,- Xn}. 现 在 考虑 任意 0 > Xoy. 对 每 一 个 
Xi 有 f(Xi;0) =1/0, 所 以 Ln(9) = 了 [f(Xi;9)=0-". BZ, 


co-| OE 0 > Xin) 


0, 0 < Xin) 


见 图 9.2. 在 区 间 [Xin 00) E, Ln(9) 是 严格 递减 的 . 因此 , An = Xin. 
多 元 正 态 分 布 和 多 项 分 布 的 极 大 似 然 估计 见 定理 14.5 和 定理 14.3. 


9.4 极 大 似 然 估计 的 性 质 


在 某 些 条 件 下 , 极 大 似 然 估 计 On 表现 出 了 很 多 性 质 , 这 也 是 它 常 被 用 来 做 参数 
估计 的 原因 . 极 大 似 然 估 计 的 特征 有 
1. 极 大 似 然 估计 是 相合 估计 : On > 6., 其 中 , 9, 表示 参数 9 的 真实 值 
2. 极 大 似 然 估计 是 同 变 估计 : 如 果 后 是 9 的 极 大 似 然 估计 , 则 gn) 是 g(0) 
的 极 大 似 然 估计 . 
3. 极 大 似 然 估 计 是 渐 近 正 态 的 : (8, — 9.)/ 免 ~ N(0,1). 同时 , 估计 的 标准 差 
Se 可 以 解 出 来 . 
4. 极 大 似 然 估 计 是 渐 近 最 优 或 有 效 的 这 表示 , 在 所 有 表现 优异 的 估计 中 , 极 
大 似 然 估计 的 方差 最 小 , 至 少 对 大 样本 这 肯定 成 立 . 
5. 极 大 似 然 佑 计 接 近 于 贝 叶 斯 估计 . (这 一 点 在 后 面 会 详细 解释 . ) 
接 下 来 将 会 花 一 些 篇 幅 来 解释 这 些 性 质 的 含义 ,并 说 明 为 什么 这 些 性 质 很 好 . 
在 足够 复杂 的 例子 中 , 这 些 性 质 不 再 成 立 , 极 大 似 然 估计 也 不 再 是 好 的 估计 . 现在 ， 
重点 关注 极 大 似 然 估计 有 用 的 简单 情况 . 讨论 的 性 质 仅 在 某 些 正则 条 件 下 成 立 . 特 
别 重要 的 是 f(z;9) 的 光滑 性 条 件 . 除非 特别 陈述 , 假定 这 些 条 件 成 立 . 


9.5 极 大 似 然 估计 的 相合 性 
相合 性 意味 着 极 大 似 然 估计 以 概率 收敛 于 真实 值 ， 首 先 需 要 给 出 定义 ， 如 果 
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fg 为 概率 密度 函数 , 定义 fA g 间 的 Kullback-Leibler 距离 ? 为 


p09= J se) og (42) ae. (96) 


可 以 证 明 Dg) > 0 E DUS) = 0， 对 于 任意 0y e 0, 4 DOY) 表示 
D(s(e;8),D(y(@:¥))- 

如 果 OA Y 可 以 推导 出 DCO, V) > 0, 则 模型 3 是 可 以 识别 的 . 这 意味 着 参数 什 
不 同 对 应 着 不 同 的 分 布 . 从 现在 开始 , 假定 模型 是 可 以 识别 的 

令 0, 表示 O 的 真实 值 最 大 化 bn (0) 等 价 于 最 大 化 

jaun, 
MO 

这 是 由 于 Ma(g) = nEn (0) - (9.))， E On(.) 为 常数 (相对 于 人 由 大 数 定律 
可 知 ,Ma(0) ACF 


/ee 
= —D(0,,0). 


因此 , Mn(0) = 一 D(0,,9), 这 在 0. 取得 最 大 值 . 这 是 由 于 一 D(9,,9,) = 0 4 0 A 0. 
时 -D(b.,6) < 0. 因此 , 取得 最 大 值 的 点 会 接近 于 9.. 正式 的 证 明 , 需要 的 不 只 是 
证 明 M,(0) + —D(0.,0), 还 需要 证 明 这 个 收敛 对 于 9 是 一 致 的 , 同时 还 必须 确认 
函数 D(9,,0) 是 有 良好 表现 的 . 下 面 是 正式 的 证 明 . 

9.13 定理 A0, 表示 9 的 真实 值 . 定义 


Ma(0) = n be i. 


且 Mn(0) = -D(0.,0). 假设 


sup |M(0) — M(@)| = 0, (9.7) 
oee 
并 且 对 任意 e> 0, 
sup M(6) < M(0.). (9.8) 
6:\0—6.|>€ 
BO, 表示 极 大 似 然 估计 , RO, 7 8.. 
证 明 见 附录 


© 这 不 是 传统 意义 上 的 距离 , 因为 D(f, g) 不 对 称 . 
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9.6 ” 极 大 似 然 估计 的 同 变性 


9.14 定理 今 7=g(0) XO 的 函数 . On 是 9 的 极 大 似 然 估 计 , MF = Gn) 
是 7 的 极 大 似 然 估 计 . 

证 明令 h= g-! 表示 9 HMB, WO, = AG). AER r, LC) = 
[[ snr) = T] 70) = LO), 其 中 ,9 = Mr)， 因 此 , 对 任意 r, Lal) = 
LO) < LÂ = LÀ. 

9.15 A 令 Xir, Xn ~ N(0,1), W 0 的 极 大 似 然 估 计 为 各 = Xn L 
T=, 则 r 的 极 大 似 然 估计 为 了 =e? = eX 


9.7 渐 近 正 态 性 


可 以 证 明 8 的 分 布 式 渐 近 正 态 , 可 以 给 出 渐 近 的 方差 , 为 了 探究 这 一 点 , 首先 
需要 一 些 定义 . 
9.16 定义 ”记分 函数 定义 为 


s(X;0) = Shes £50), (0.9) 
Fisher 信息 量 定义 为 


In(0) = Vo (È (Xs; 0) 


i=1 


= Vol elise). (9.10) 


对 于 n= 1, 有 了 时 记 为 1(9) 而 不 是 五 (9). 可 以 证 明 Eo(s(X;9)) = 0. 所 以 可 以 
得 到 Vo(s(X;0)) = Eo(s?(X;9)). 事实 上 , In(9) 的 更 简化 的 形式 在 下 面 的 结论 中 
给 出 . 


9.17 È In(0)=nI(0). 同时 ， 


1) =" (uate 


2S J (eae) f(z;0)dz. (9.11) 
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9.18 定理 (家 大 似 然 售 计 的 渐 近 正 坊 性 ) A se = /VGn). 在 适当 的 正则 条 件 

F, FREARS: 

1 sex VITROJ 且 
a ~> N(0,1) (9.12) 


2. & & = V/1/In(B), BI 
fa? ~> N(0,1). (9.13) 


证 明 见 附录 ， 第 1 式 是 指 n < N(0,se), 其 中 ,Bn 的 近似 标准 差 为 se = 
JITO. B 2 式 是 指 即使 把 标准 差 用 其 估计 值 6 = 1/ 厂 (人 替代 , 结论 仍然 
成 立 . 

这 个 定理 说 明 极 大 似 然 估计 的 分 布 可 以 用 N (0, R? 近似 表示 . 据 此 , 可 以 构建 
(近似 的 ) 置信 区 间 

9.19 定理 4 


Cn = (ê 一 20/28, B+ zan), 
Rl% n — oo 时 , Po(0 E€ Cn) > 1-a. 
A A Z 表示 服从 标准 正 态 分 布 的 随机 变量 . 则 


Po(0 € Cn) =Po (8 - za/2% 


<O< 
6-0 
=Po (= sp S <n) 


= P(-2a/2 < Z < za/2) =1—@. 


对 于 a = 0.05, za/2 = 1.96 ~ 2, 所 以 


Oy + 286 (9.14) 
是 渐 近 的 95% 的 置信 区 间 . 


当 你 在 报纸 上 读 到 民意 测验 时 , 经 常会 看 到 类 似 的 评论 : 该 民意 测验 精确 度 为 
一 个 百分点 ， os 他 们 简单 给 出 了 95% 的 置信 区 间 所 + 28. 


9.20 例 4 Xi, ~ Bernoulli(p). 极 大 似 然 估 计 为 Pn = Lem 县 
(asp) = p?(1 -milogf(zip)=zlogp+(1 一 DJlog(1 一 站， 
1-X 
3(X;p) = = oc Tep. 
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X 1- 
00D = 3+ GX. 
ax, P p 1—p 1 
10) =E- (p) -+= ap 
所 以 
bee ta eT - {ay 
Vin@n) nT (Pa) 7 
95% 的 渐 近 置信 区 间 为 


Pn +2 {Pe Cam 


9.21 例 & Xi, ,Xn ~ N(0,0?), 其 中 , o? 已 知 记分 函数 为 s(X;0) = 
(X — 6)/o? E s!(X;0) = —1/0? 所 以 五 (9) = 1/c2. 极 大 似 然 估 计 为 了 = Xp. 根据 
定理 9.18, Xn ~ N(0,0?/n). 在 这 个 例子 中 , 正 态 近似 是 完全 正确 的 . 

9.22 例 & Xi, Xn ~ Poisson(A), 则 和 = Xn, 经 计算 可 知 (A) = 1/2, 
所 以 


因此 , 入 的 1 — a 的 近似 置信 区 间 为 E zaya n/n. 
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假设 XX,… ,Xn ~ (0,07), 极 大 似 然 估计 为 On = Xn. 9 的 另外 一 个 合理 的 
估计 为 样本 中 位 数 Ön. 极 大 似 然 估计 满足 


Valna — 0) ~» N(0,0?). 


也 可 以 证 明 
Valna — 0) ~ N (03). 


这 意味 着 中 位 数 收敛 于 真 参数 值 , 但 它 的 方差 比 极 大 似 然 估计 的 方差 大 . 
更 一 般 地 , 考虑 两 个 估计 量 Th 和 Un, 并 假设 


VPCT — 8) ~ N(0,t”), 


Vn(Un — 8) ~> N(0, u?) 
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定义 U 对 于 T 的 渐 近 相对 效 为 ARE(U,T) = ?/w. 在 上 面 正 态 分 布 的 例子 中 ， 
ARE(bgn,bn) = 2/7 = 0.63. 这 表示 如 果 使 用 中 位 数 估 计 , 只 是 有 效 的 利用 了 一 部 分 
数据 . 

9.23 EH KG, 是 极 大 似 然 估 计 , n 是 其 他 任意 估计 , 则 ? 


ARE(6n,9n) <1. 
因此 , 极 大 似 然 估计 具有 最 小 ( 渐 近 ) 方差 , 称 极 大 似 然 估 计 是 有 效 的 或 渐 近 
最 优 的 . 
这 个 结论 是 基于 模型 正确 的 假设 的 . 如 果 模 型 有 误 , 极 大 似 然 估 计 就 不 再 是 最 
优 的 . 在 讨论 第 12 章 的 决策 理论 时 , 会 更 一 般 地 讨论 最 优 性 . 


9.9 Delta 方法 
& r= g(0), XE g 是 光滑 函数 . 7 的 极 大 似 然 估计 为 了 = 9(0). 现在 来 考虑 下 
面 的 问题 : ?的 分 布 是 什么 ? 


9.24 定理 (Delta 方法 ) 如 果 T=g(9), 其 中 ，9 TH, E g'(9) £0, 则 
(a-r) 
~ NO1). (9.15) 
HP, Fn = gn) 且 ree 
Eln) = |9'(A)|5(On). (9.16) 
因此 , 如 果 
Cn = (în — 2a/2( n), Fn + Za/28C(7n)) ， (9.17) 
Ri 4 n — oo tt, Poe(re Cn) 一 1 一 a- 


9.25 例 今 X1,… , Xn ~ Bernoulli(p), HS Y = g(p) = log(p/(1—p)). Fisher 
信息 量 为 1(p) = 1/(p(1 — p)). 所 以 极 大 似 然 估计 Dn 的 标准 误差 为 


=. [Pall Pa) 
ROBE DURES $ = logp/(1—B). 由 于 yy(p) = 1/(p(L — p)), 根据 Delta 方法 
(n) = lo! Gn)|5@Pn) = J 


95% 的 渐 近 置信 区 间 为 


Vabal — Pn) 


O 这 个 结果 实际 上 应 更 敏感 , 但 在 这 儿 考虑 细节 有 点 过 于 复杂 


tn 
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9.26 例 令 X1,… ,Xn~ Nw). 假设 u BEA, o RA, 希望 估计 Y = logo. 
对 数 似 然 函 数 为 ktc) = -nlogo 一 3g? La — p)?. 对 其 求 导 数 并 令 其 等 于 0, 可 


以 得 到 


Dp) 
ĉn = \ 
n 
为 了 得 到 标准 误差 , 需要 计算 Fisher 信息 量 . 首先 ， 
ER 
log f(X; 0) = — logo — Sat 
有 二 阶 导 数 
1 3(X — y)? u? 
ao A 
因此 ， 
--1 3% 2 
I(o) = =a 


因此 , & = Gn/VIn. 4 y = glo) = logo, W b= logs. 由 于 g = 1/0, 


95% 的 渐 近 置信 区 间 为 vn + 2/V2n. 


9.10 “多 参数 模型 


这 些 思想 可 以 直接 扩展 到 有 多 个 参数 的 模型 . 令 9 = (91,… ,0k), 且 令 ô = 
(GU，… Oe) 为 极 大 似 然 估计 . 令 bn = > log f(Xi;9)， 
i=1 


O26n 
B= 00?” Hir = O0;00k 
定义 Fisher 信息 矩阵 为 
Eo(Hi1) Eo(Hi2) …，Ee(CEak) 
hn(6) = Fo(H21) Fo(Hz2) re ie i (0.18) 


Es(Ha) Es (Hra) +++ Ee(Hxk) 
令 (0) = In (0) 是 In ORE. 
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9.27 定理 ”在 适当 的 正则 条 件 下 ， 
(@- 6) ~ N(O, Jn). 


同样 , oR 0; 是 6 的 第 了 个 元 素 , 则 
@;-8) 
aa ~ N(0,1) (9.19) 
IEP, BE = In(j,5) A Ja HK IPAM RAH, By 和 Ky 的 渐 近 方差 为 Cov(5ej Sr) 
= Jalj, k). 
同样 也 是 多 参数 的 Delta 方法 . 令 r = g(01,… ,gk) 为 一 个 函数 , 令 


og 
Br 
Vg= : 
og 
Dor 
是 g 的 梯度 . : 7 
9.28 定理 (多 参数 Delta 方法 ) MR Vg 在 日 处 不 等 于 0. A F= g0), M 
C-7) 
aG 7 NOU), 
其 中 ， 
HF) = y (Oo) Plg), (9.20) 


Sn = In), 4 0=0 tt Vg FF Vo. 
9.29 例 S X Xn ~ N02). & r =g(p0) = o/u. 在 9.14 习题 中 的 


第 8 题 中 要 求证 明 
5 0 
nined=(% 2) 
o? 
因此 ， 
Ja = Tq > (m0) (4 2 ) 
n= In (uo) = — o2 |- 
n 0 z 
g 的 梯度 为 
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因此 ， 


a) = (Pho = 大志 + 六- 
9.11 参数 Bootstrap 方法 


对 于 参数 模型 , 标准 差 和 置信 区 间 可 以 使 用 Bootstrap 方法 来 估计 . 在 这 里 只 

有 一 个 变化 ， 在 非 参 Bootstrap 中 , 从 经 验 分 布 中 抽出 样本 X?,… Xa EBB 
Bootstrap 方法 中 , 从 f(r; On) 中 抽样 . 因此 , On 可 以 是 极 大 似 然 估计 或 者 矩 估 计 . 

9.30 Bl “考虑 例 9.29. 为 了 得 到 标准 差 , 随机 模拟 X?,… Xa ~ NA, 3?) 计 

Ha =n Dx Meant Ler 一 信 )?. 然后 计算 = g(f*,5*) = 人 /说 


重复 上 述 过 程 BY, 得 到 Bootstrap 复 本 


标准 误差 的 估计 值 为 


Seboot = ee 


Bootstrap 方法 要 比 Delta 方法 简单 很 多 . 另 一 方面 , Delta 方法 也 有 优点 , 它 可 
以 给 出 标准 差 更 近似 的 估计 式 . 


9.12 检验 假设 条 件 


如 果 假设 数据 来 自 一 个 参数 模型 , 那么 最 好 应 该 检验 这 个 假设 . 一 种 方法 是 通 
过 检查 数据 的 图 形 来 非 正式 地 检验 这 个 假设 条 件 . 比方 说 , 如 果 数 据 的 直方 图 看 起 
来 是 双 峰 的 , 那么 正 态 性 的 假设 就 值得 质疑 了 . 检验 参数 模型 的 正式 方法 是 使 用 拟 
合 优 度 检验 . 见 10.8 节 . 


9.13 附 录 


9.13.1 证 明 
定理 9.13 的 证 明 由 于 后 使 得 Mn(9) 最 大 , 有 Mn@n) > Mn(9.). 因此 ， 


M(0.) — M@n) =Mn(0.) — M (n) + M0.) — Mn(0.) 
<Mr (ôn) — M(On) + M (0x) — Mn(0:) 
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<sup |M,(8) — M(@)| + M (04) — Mn (9+) 
2o. i 
最 后 一 行 根据 (9.7) 得 来 . 所 以 对 于 任意 5 > 0, 有 
P(M (ôn) < M(0.) — ô) +0. 


任意 取 e > 0, 根据 (9.8), 存在 5 > 0 (EFF |0 — 0.| > 蕴涵 着 M (0) < M(9.) 一 6. A 
此 ， 
P(|ĝn — 0.| > €) <P(M(On) < M(0.) — ô) > 0. 


接 下 来 , 证 明定 理 9.18. 首先 需要 一 个 引 理 . 
9.31 引 理 ”记分 函数 满足 


Eols(X;0)] =0. 
证 明 “注意 到 1 二 /f(z;0)dz. 对 等 式 两 边 取 微分 , 得 到 
ð ð 
o= % [10a = [Fier 


flxi6) 
.pdz = alogf(cig) rr 
= [Bey tenes = [ PEE feod 


= f (04; 0da = Bals(X:0)) 
定理 9.18 的 证 明 = L0) = log L(A), 则 
0= (0) = L (0) + (0— 0) (0), 
把 上 面 的 等 式 移 项 , 可 以 得 到 8 - 9 = e (0)/ (0). RH, 换 句 话说 ， 


2 _ 1/vnl(0) _ _ TOP 
Vn(0 -0) = =1/n"(0) — BOTTOM” 


令 Y; = Olog f(X;0)/00. 根据 前 面 的 引 理 可 得 E(Y) = 0, 同时 V(Y:) = 1(A). 因此 ， 
由 中 心 极限 定理 可 知 : 


TOP =n7/? ÈY; = Vn Y = vn(Y - 0) ~ W ~ N(0, I(0)). 


A Ai = —0? log f (X;0)/30?, 则 下 (4i) = 了 (9). 由 大 数 定律 可 知 


BOTTOM = A > 1(0). 
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应 用 定理 5.5 的 (e) 部 分 , 可 以 得 到 


6-9~ 耐 sr 人 0 高) 


假设 1(9) 是 9 的 连续 函数 , 所 以 1G.) = 100). 然而 


-o AS 
= 1) Gn — 8) 


I(0") 


= {vn 0n) 0n — 0)} KON 


第 一 项 依 分 布 趋向 于 N(0,1), 第 二 项 依 概率 趋向 于 1. 该 结果 依据 定理 5.5 的 (e) 
部 分 . 
定理 9.24 的 证 明 思路 ” 记 


Fn = 9(On) © g(0) + (On — 0)g(0) =7+ (n — 0)9'(0). 
因此 ， 
Vala — 7) ~ Vn(On — 0)g'(0), 
因此 ， 


ee ~ Vln - 0). 


定理 9.18 说 明 上 式 的 右边 依 分 布 趋向 于 N(0,1). 因此 ， 
On ~ N(0,1). 
或 者 , 换 句 话说 ， 
Pa = N(r, se?(F,)). 
ai (g'(0))? 
sa) = CO 
依据 定理 5.5 的 (e) 部 分 可 知 , 如 果 用 Dn 代替 0, 这 个 结论 仍然 成 立 


9.13.2 ”充分 性 

统计 量 是 数据 X” = (Xi1,… Xn) 的 函数 了 (X"). 充分 统计 量 是 指 包含 数据 所 
有 信息 的 统计 量 . 为 了 把 它 表达 的 更 加 正式 一 点 , 需要 一 些 定义 (假设 每 个 f(z;9) 
定义 在 同一 个 空间 + 上 . ) 
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9.32 定义 ”如 果 flz"ig) = cf(y";0), Baroy", 其 中 ，c 为 常数 (可 能 依赖 
于 a” 和 "但 是 不 依赖 于 0). 如 果 了 T(z") =T(y") BAH r” > y”, 则 T(zn) 
是 9 的 充分 统计 量 . 
注意 到 , 如 果 2” o y, 则 基于 z" 的 似 然 函 数 和 基于 y” 的 似 然 函 数 有 相同 的 
形状 . 粗略 地 讲 , 如 果 已 知 T(z") 就 可 以 计算 似 然 函数 , 则 该 统计 量 是 充分 的 . 
9.33 Bl 4 Xi,---,Xn ~ Bernoulli(p), 则 L(p) =p5(1 一 p)"-5, H, S= 
SO Xi, 所 以 S 是 充分 的 . 


9.34 例 4 Xir, Xn ~ N(m,0), HST = (X, S). W 
eran Gr ants ns? n(X — p)? 
Imo = (ee) exp {355 } ep {BSI 
Sth, S 是 样本 方差 . 最 后 一 个 表达 式 通过 T 仅 依赖 于 数据 , 因此 T = (X,S) 是 


充分 统计 量 . 注意 到 U = (17X, S) 也 是 充分 统计 量 . 如 果 知道 U 的 值 , 就 可 以 构造 
T, 并 且 计 算 似 然 函 数值 . 充分 统计 量 远 不 是 唯一 的 . 考虑 下 面 的 统计 量 ， 


Ty(X") = (Xr, Xn); 
R(X”) = (X,5), 
T3(X") = X, 


Ts(X") = (X,S,Xs). 
第 一 个 统计 基 是 整个 数据 集 , BEAST. 第 二 个 也 是 充分 统计 量 , 在 前 面 已 经 
证 明 过 . 第 三 个 不 是 充分 统计 量 , 因为 仅 已 知 X 的 时 候 不 能 计算 出 Llu, o). 第 四 个 
统计 基 Ta 是 充分 的 . 统计 其 五 和 Ts 是 充分 的 , 但 是 它们 包含 元 余 的 信息 . 从 直观 
上 就 能 感觉 To 是 比 Ti 或 Ts 更 简洁 的 充分 统计 量 . 可 以 认为 T 是 的 一 个 函数 ， 
类 似 地 , Te 是 Ts 的 一 个 函数 . 例如 , To = g(T4), 这 里 g(a1, az, 03) = (a, a2). 
9.35 定义 ”如果 统计 量 了 满足 (i) 它 是 充分 的 以 及 (ii) 它 是 其 他 每 个 充分 统计 
量 的 函数 , 则 统计 量 了 是 最 小 充分 统计 量 . 
9.36 EH 如果 下 面 的 条 件 成 立 : 
T(2")=T(y") 当 且 仅 当 T” ey", 
则 全 是 最 小 充分 统计 量 . 
统计 量 用 来 将 试验 结果 集 分 类 . 可 以 根据 这 些 分 类 考虑 充分 性 . 
9.37 例 4 Xi, Xn ~ Bernoulli(). 4 V = X, T = OX MU = 


(T,X1). 下 面 是 结果 集 和 统计 量 : 
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Xı Xa U 


v T 
0 0 (0,0) 
0 1 
g 1 

2 


(1,0) 
(1,1) 


1 (2,1) 
st 

不 同 的 分 类 由 下 面 的 统计 量 生成 

V = {(0,0), (0, 1)}, {(1,0), (1, 1)}, 
T > {(0,0)}, {(0, 1), (1,0)}, {(1, 1)}, 
U — {(0,0)}, {(0, 1)}, {(1,0)}, {(1, 1)}, 
则 站 是 不 充分 的 , (HIE T A U 是 充分 的 . T 是 最 小 充分 的 , U 不 是 最 小 充分 的 . 这 
是 因为 如 果 z” = (1,0) 和 y” = (0,1), W z” > y”, 但 是 Ula) A U(y"). 统计 量 
= 17T 产生 的 分 类 和 一 样 , 它 同样 是 最 小 充分 统计 量 . 

9.38 例 ”对 于 正 态 模型 N(u,07), T = (X,S) 是 最 小 充分 统计 量 ， 对 于 
Bernoulli 模型 , T = > Xi 是 最 小 充分 统计 量 ， 对 于 泊 松 模型 , T = ux 是 最 
小 充分 统计 量 , 验证 了 = È Xi, Xi) 是 充分 的 , TARERE AEH, T = Xi 
不 是 充分 统计 量 . 

本 书 给 出 的 定义 并 不 是 通常 所 说 的 充分 统计 量 的 定义 . 通常 的 定义 为 : 如 果 给 
定 了 T(z") =t，X" 的 分 布 不 依赖 于 0, 则 了 是 充分 的 . 换言之 , 如 果 f(z1,… ,znlt;0) = 
hh(z1,… Ent), 则 了 是 充分 的 . 这 里 , h 是 不 依赖 于 9 的 一 个 函数 . 

9.39 例 “” 抛 两 枚 硬币 . 令 X = (X1, X2) ~ Bernoulli(p), W T = X + X2 是 充 
分 的 . 为 了 证 明 这 一 点 , 需要 给 定 了 = t 时 (Xi, Xo) 的 分 布 . 由 于 T 有 三 个 可 能 的 
取 值 , 就 有 三 个 条 件 分 布 需 验证 . 它们 是 

(i) 给 定 了 = 0 时 ，( Xi,X2) 的 分 布 : 

P(X, =0,X2=0|t=0)=1, P(X, =0, X2 = 1ļt = 0) = 
P(X1 =1,X2=0|t=0)=0, P(X, =1, X2 = 1t = 0) =0. 
(ii) RET =1 RY, (Xi, X2) 的 分 布 ， 
P(X1=0,X2=0t=1)=0, P(X; =0, X2 = 1ļt=1) = A 
P(X, =1,X: =0|t=1) = 到 P(X; =1,X2 = 1/t=1) =0. 
(iii) 给 定 T 了 = 2 WY, (Xi, X2) 的 分 布 : 
P(X1=0,X2=0lt=2)=0, P(X1=0,X2=1lt=2)= 
P(X1=1,X2=0t=2)=0, P(X; =1,X2=1\t=2)=1. 
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上 面 没 有 一 个 分 布依 赖 于 参数 p. 因此 , 条 件 分 布 X1, XT 不 依赖 于 p, HLL T JE 
充分 的 . 

9.40 定理 (因子 分 解 定理 ) 人 是 充分 统计 量 当 且 仅 当 存在 函数 g(t,0) 和 h(z) 
使 得 f(x"; 0) = g(t(z"), 0)h(z"). 

9.41 例 。 回 到 抛 两 枚 硬币 的 例子 . + t= zl + zz, 则 


f(z1, 72;0) = f(z1;0)f(z2;0) 
= (1 — 0)!-™29"2(1 — 9)!-# 
= g(t,0)h(z1, 22). 


其 中 ，g(#,0) = (1 一 0)? 和 h(z1,z2) = 1. 因此 , T = X + Xo 是 充分 的 . 

现在 来 讨论 在 点 估计 中 充分 性 的 含义 . 令 6 是 9 的 点 估计 . 下 述 Rao-Blackwell 
定理 说 明 一 个 估计 应 该 只 依赖 于 充分 统计 量 , 否则 它 可 以 被 改进 ， 令 RO, = 
Eo(0 — 0)? 表示 估计 量 的 均 方 误差 MSE. 

9.42 定理 (Rao-Blackwell) ”今日 为 估计, 了 为 充分 统计 量 . 定义 一 个 新 的 估 
计 

0= EÔT), 
则 对 任意 9, 有 R(0, < R(0,0) 

9.43 例 ”考虑 连续 抛 一 个 硬币 两 次 . 4 8 = X. 这 是 一 个 无 偏 估计 . 但 它 不 是 
充分 统计 其 T = Xi + Xo 的 函数 . 然而 , 可 以 知道 5 = E(XalT) = (Xi 二 Xo)/2. 根 
据 Rao-Blackwell 定理 , 6 的 均 方 误差 至 少 与 = Xi 的 一 样 小 . 这 也 可 以 应 用 到 抛 
nn 次 硬币 . 再 次 定义 6= Xi 和 了 = SOX. 则 5 = EXIT) =n 》 Xi 改进 了 均 

i i 


方 误差 . 
9.13.3 ”指数 族 


这 里 所 研究 的 参数 模型 绝 大 多 数 是 称 为 指数 族 的 一 类 模型 的 特例 ， 如 果 存 在 
函数 m(9), BCA), T(x) 和 h(x) 使 得 


f(z;0) = h(z)e™®) T(z)-B(0), 


则 称 {f(z;6) : 0 € O} 为 单 参数 指数 族 . 易 见 T(X) 是 充分 的 , 称 之 为 自然 充分 统计 
量 . 


9.44 例 4 X ~ Poisson (6), 则 


Ge? _ 1 slog0-0 
sm = -a = Gere. 


因此 , 这 是 一 个 指数 族 , 其 中 ,7(9) = log 6, BO) = 0, T(z) = x 和 A(x) = 1/2! 
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9.45 例 4 X ~Binomial (n, 6), 则 


f(z;0) = ( i Jra- = ( . ) ex {to (5) +nlog(a -0)}. 


在 这 个 例子 中 ， 
(8) = log (4) > B(6) = —nlog(1 — 0), 


并 且 
T(z) = z， h(x) = ( " ). 
z 
可 以 把 指数 族 改写 为 
f(z;n) = h(z)e"™@-AM) 
其 中 , = (0) 称 为 自然 参数 , 而 
A(n) = log Í h(z)e"T (qz. 


例如 , 泊 松 分 布 可 以 改写 成 f(z;7n) = 7e" /zl 这 里 自然 参数 为 = log 0. 
令 Xie ,Xn 为 独立 同 分 布 的 指数 族 , 则 f(z";0) 为 一 指数 族 


$ (2"; 0) = hn (2? )eOTa (2) -Ba (0), 
其 中 hla”) = [[ Ales), ma") = S07 (ai), Bal) =nB(0). 这 意味 着 STX) 
i i i 


是 充分 的 . 
9.46 B) 令 XX,… , Xn ~Uniform (0,6), 则 


f(z";0) = FH <8), 


其 中 ，7 为 示 性 函数 , 即 如 果 括 号 里 的 项 为 真 , 则 了 的 值 为 1, MW O. ayy) = 
max{Z1,… ,zn}. 因此 , T(X") = max{X1,… , Xn} 是 充分 的 . 但 是 , 由 于 T(X") A 
DOT (%), 这 不 可 能 是 指数 族 . 
9.47 定理 AX HERR ARMA, 则 
E(T(X)) = A'(n), V(T(X)) = A”(n). 


WMR O= (91,… Ox) 是 一 个 向 量 , 且 


k 
$(2;0) = h(x) exp 位 one = vo} ， 
j=1 
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则 称 f(z;9) 具有 指数 族 的 形态 . 同时 T = (Ta Te) 是 充分 的 . 样本 量 为 n 的 独 
立 同 分 布 样本 也 具有 指数 族 的 形态 , 其 充分 统计 量 为 ORO o TeX). 


9.48 例 “考虑 9 = (uc) 的 正 态 族 . 此 时 


2 
f(z;0) = ep { Se - i 一 (5 +log(2no*)) }. 
这 是 指数 族 , 其 中 ， 
m) = 4, Tile) ==, 


mO) = -z Tale) = 2°. 


BO) = 5 (5 + log(2n0?)) , h(a) = 1. 
因此 ,对 于 n PEGLI EA, (Xs, JO XP 是 充分 的 
和 以 前 一 样 , T 可 以 把 指数 族 写成 
f(z;n) = h(x) exp{T? (x)n — A(n)}- 
这 里 , A(n) = log f h(a)e™™ "dx. 可 以 证 明 
E(T(X)) = À(n), V(T(X)) = Ä(n). 
这 里 第 一 个 表达 式 是 偏 导 数 向 量 , 第 二 个 是 二 阶 导数 矩阵 . 


9.13.4 ”计算 极 大 似 然 估计 


在 某 些 情形 下 , 可 以 找到 极 大 似 然 估计 的 解析 式 . 更 常见 的 是 , 需要 通过 数值 
方法 寻找 极 大 似 然 估计 . 在 这 里 , 只 简单 讨论 两 种 常用 的 方法 : (i)Newton-Raphson 
法 和 (EM 算法 . 这 两 种 都 是 循环 达 代 的 方法 ， 会 生成 一 个 序列 09,01,…, 它们 在 
理想 的 条 件 下 会 收敛 于 极 大 似 然 估计 人 在 这 种 情况 下 , 一 个 好 的 初始 值 0 非常 有 
用 . 矩 估 计 经 常 是 一 个 很 好 的 初始 值 . 

NEWTON-RAPHSON ”为 了 讲述 Newton-Raphson, 在 67 点 把 对 数 似 然 
函数 的 微分 展开 , 即 

0 = (6) SL(0) + (0 — y). 


解 人 得 到 
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这 表明 了 接 下 来 的 迭代 步 又 : 


pt gs LO 
PH = w TEY 


在 多 参数 情形 下 , 极 大 似 然 估 计 8 = G, 0) 是 一 个 向 量 , 迭代 方法 就 变 为 
B+ = i — H (0), 


Hp, C0) 是 一 阶 导数 向 量 , H 是 对 数 似 然 函数 的 二 阶 导数 矩阵 . 

EM 算法 字母 EM 表示 期 望 最 大 化 (expectation-maximization). 这 个 思想 是 
取 期 望 值 之 间 迭 代 , 直到 取 到 最 大 值 . 假设 有 数据 Y, 由 它 的 密度 函数 f(y;9) 生成 
的 对 数 似 然 函数 很 难 最 大 化 . 但 是 , 假设 可 以 找到 另 一 个 随机 变量 2 满足 f(y;9) = 
SFY, 25 0)dz, 而 基于 f(y, 230) 的 似 然 函数 很 容易 最 大 化 . 换言之 , 要 研究 的 模型 是 
一 个 有 简单 似 然 函 数 的 模型 的 边际 模型 . 在 这 种 情形 下 , 称 Y 为 观察 数据 , Z 为 隐 
藏 数据 (或 潜 数据 或 缺失 数据 ). 如 果 能 够 填充 缺失 值 , 那么 就 简化 了 问题 . 从 概念 
上 来 讲 , EM 算法 通过 填充 缺失 数据 , 使 对 数 似 然 函数 最 大 化 , 循环 这 个 过 程 . 

9.49 例 (混合 正 态 ) 有 时 可 以 假设 数据 的 分 布 是 两 个 正 态 分 布 的 混合 . 考虑 
人 的 身高 , 就 是 男人 身高 和 女人 身高 的 混合 . 令 p(y; u o) 表示 均值 为 /标准 差 为 o 
的 正 态 概 率 密度 函数 . 两 个 正 态 分 布 的 混合 密度 函数 为 


f(y;0) = (1 — p)ọ(y; po, o0) + poly; p101). 


其 思想 就 是 某 一 个 观测 来 自 第 一 个 正 态 分 布 的 概率 为 p, 来 自 第 二 个 正 态 分 布 的 概 
率 为 1-p. 然而 , 不 知道 这 个 观测 是 从 哪个 分 布 中 抽取 的 . 参数 为 9 = (Ho, 00; 11,015). 
似 然 函 数 为 
£(0) = [TIC —p)¢(yi; Ho, 70) + polui; ac. 
i=1 
通过 求 5 个 参数 使 得 这 个 函数 最 大 化 很 难 . 想象 一 下 如 果 已 知 一 些 额外 信息 , 知道 
每 个 观测 分 别 来 自 哪 个 正 态 分 布 . 这 些 “完整 "数据 的 形态 为 (Yi, 21),… (Yn, Zn): 
这 里 Zi = 0 表示 来 自 第 一 个 正 态 分 布 , Z; = 1 表示 来 自 第 二 个 正 态 分 布 . 注意 到 
P(Z; = 1) =p. 很 快 就 能 看 出 完整 数据 (V1, Z1),--- , (Yn, Zn) 的 似 然 函数 要 比 观察 
数据 Yi , Yn 的 似 然 函数 简单 得 多 . 
下 面 来 描述 EM 算法 . 


EM 算法 
(0) 选择 初始 值 99. 对 于 了 = 1,2,…, 重复 下 面 的 步 又 (1) 和 步骤 (2). 
(1) 58 (EH) 计算 
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这 里 的 期 望 是 对 于 缺失 数据 求 的 8 的 期 望 , 而 观察 数据 Yn 看 作 常 数 . 
(2) 找 出 使 得 7(0|0;) 最 大 的 65+1. 
现在 证 明 EM 算法 总 是 能 增加 似 然 值 , 也 就 是 (0;+!) > L(01). 注意 到 


n Fn.0itl 
16) = tu (mye) 


= Jog f+) LZ" 6741) on 
= log TOO + Eo; (1s A] ly" =y Ji 


因此 
LI) f(y Ot) 
LB) ~ 8" fly") 


nyn. git) 


= IH) + K (fis fis), 


其 中 ， 方 = fy), fjs = f(y") 和 K(f,g) = | f(z)log(f(z)/g(z))dz 
是 Kullback-Leible 距离 ， 现 选择 出 07+) 使 其 最 大 化 J(0|87)， 因 此 J(0+1\07) > 
J(65|64) = 0. 同时 , 由 Kullback-Leible 发 散 的 性 质 , K(f;, fj+1) > 0. 因此 , £(07+1) > 
C(07) 总 成 立 . 

9.50 例 ( 例 9.49 续 ) ”再 一 次 考虑 两 个 正 态 分 布 的 混合 ， 为 简单 起 见 ， 假 设 
p=1/2,0, = 02 = 1. 联合 密度 函数 为 


1 1 
Jpa) = 5 (Ys Hoy 1) + 5O(yi m, 1). 


直接 最 大 化 似 然 函 数 很 难 . 引入 潜 变量 Z1,… Zn 这 里 , 当 Yi HEA (ys uo, 1) 时 
Zi = 0, 4 Y; HA Oy ua, 1) BE Z = 1, P(Z = 1) = PZ = 0) = 1/2, f(yil2i = 


0) = ġ(y; p01) , f(yilZ2i = 1) = go 和 .所 以 f(y) = 了 f(y,z), 这 里 为 了 避免 
z=0 
符号 太 多 把 参数 从 密度 函数 中 删除 了 . 可 以 写 出 
Feu) = FS lulz) = Fél: nos)" pn 1. 


因此 , 完整 的 似 然 函 数 为 


To no, 177 Alus; pa 1)™. 
i=l 
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完整 的 对 数 似 然 函 数 为 
=-5 isa — a)(yi — Ho)? -3 这 sw =n). 
25 


因此 
JOP) = —5 920 Ea" NH — wo)? 5 Bz" Pu 


由 于 Z: 是 二 值 的 , E(Zily”, 0) = P(Zi = Ly”, 0), 由 贝 叶 斯 定理 知 ， 


Sly"IZi = 1;6/)P(Z = 1) 
PZ = Mle") = az OE = 1) + FU" = PZ = 0) 
= blw, 1) -1/2 
olu uå, 1) - 1/2 + lyi; md, 1) -1/2 
= glui i, 1) 
Glyi; HA, 1) + Bly; HO» 1) 
= (i). 


关于 m,m 对 JOO) 求 导数 , 并 令 其 等 于 0, 得 到 
aw D0 -ni)y 
HHE, ah i 


m n E 
Lan La-n) 


i=l i=1 


然后 用 aL 和 bY 再 计算 ni, HIER. 


9.14 习 题 


1. $ X1,- ,Xn ~ Gamma (a, 8). RH a, 8 的 矩 估 计 . 
2. & Xi, , Xn ~ Uniform (a,b), 这 里 a,b 为 未 知 参数 , H a <b. 
(a) K a,b 的 矩 估计 . 
(b) R a,b 的 极 大 似 然 估计 @, 6. 
(c) 令 r= zdF(z). 求 7 的 极 大 似 然 估计 . 
(d) 4 7 È r 的 极 大 似 然 估计 . 令 了 是 7 = /zdF(z) 的 非 参 嵌入 式 估计 . 假设 
a=1,b=3,n=10. 用 随机 模拟 方法 求 出 地 的 均 方 误 差 , 并 求 出 7 的 均 方 误 
差 解析 式 . 作 比 较 . 
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3. & Xi, ,Xn ~ N(u, 07). & T X 0.95 分 位 数 , 即 P(X<7)=0.95. 
(a) R r 的 极 大 似 然 估计 . 
(b) 求 + 的 1 一 a 渐 近 置信 区 间 . 
(c) 假设 数据 为 


3.23 ”一 2.50 1.88 —0.68 4.43 0.17 
1.03 -0.07 —0.01 0.76 1.76 3.18 
0.33 —0.31 0.30 —0.61 1.52 5.43 
1.54 2.28 0.42 2.33 一 1.03 4.00 
0.39 


SR or BAUR IT 7. 用 Delta 方法 求 出 标准 误差 . 用 参数 Bootstrap 方法 
求 出 标准 误差 . 

4. & Xi, Xn ~ Uniform (0,4). 证 明 极 大 似 然 估计 是 相合 的 . 提示 : 令 Y = 
max{X1,… ,Xn}, 对 于 任意 c, 有 P(Y < oO)=P(X1<c,X2 <c, ,Xn <c) = 
P(X: < OP(X2 < oO) :P(Xn <0)- 

5. 4 Xi, Xn ~ Poisson (A), R A 的 甜 估计 、 极 大 似 然 估 计 和 Fisher fet it 
IA). 

6. 令 Xn Xn ~ N(0,1). 定义 


$y =PY =D. 

(a) R y WKAR D- 

(b) Rw AY 95% KASE E fet DX N. 

(©) EX B= (1/n) DY. WER DE v EA- 


(d) 计算 六 对 全 的 浙 近 相 对 效率 . 提示 : 用 Delta 方法 计算 出 极 大 似 然 估计 的 标 
准 误差 , 然后 计算 D 的 标准 误差 (标准 差 ). 
(c) 假设 数据 并 不 是 服从 正 态 分 布 的 . 证 明 O REHAR. DAE HEA? 

7. (比较 两 种 治疗 ) 假设 ni 个 人 接受 治疗 方案 1, na 个 人 接受 治疗 方案 2. 令 Xi 
表示 接受 治疗 方案 1 并 表现 出 治疗 有 效 的 人 数 , 令 Xo 表示 接受 治疗 方案 2 并 
表现 出 治疗 有 效 的 人 数 . 假设 Xi ~ Binomial(mi, pı), 而 X2 ~ Binomial(nz, p2). 
$ p=p -p 
(a) R y KRKE $. 

(b) 3K Fisher 信息 矩阵 I(p1,p2)- 
(©) 用 多 参数 Delta 方法 求 出 少 的 渐 近 标准 差 


一 


116 第 9 章 参数 推断 


(d) 假设 mm = n2 = 200, Xı = 160, X2 = 148. R $. 分 别 用 (i)Delta 方法 和 (ii) 
参数 Bootstrap WER v 的 90% 的 渐 近 置信 区 间 . 
8. 求 例 9.29 中 Fisher 信息 矩阵 . 
9. & X1,--+, Xn ~ Normal(y, 1). 4 0 = H, HA Ô = ex 为 极 大 似 然 估 计 . 用 六 =5 
创建 一 个 观测 数 n= 100 的 数据 集 . 
(a) 用 Delta 方法 计算 & A 9 的 90% 的 置信 区 间 . 用 参数 Bootstrap 方法 计算 
Se Al 6 BY 90% 的 置信 区 间 . HIES Bootstrap 方法 计算 免 和 9 的 90% 的 置 
信和 区间 . 比较 两 个 结果 . 

画 出 参数 Bootstrap 方法 和 非 参 Bootstrap 方法 的 Bootstrap 复 本 的 直方 
图 。 这 些 是 6 的 分 布 估计 ，Delta 方法 同样 可 以 给 出 这 个 分 布 的 近似 , BI, 
Normal(6, se?). 把 这 些 和 6 真实 的 样本 分 布 (可 以 通过 随机 模拟 得 到 ) 作 比 
较 . 参数 Bootstrap 方法 、 非 参 Bootstrap 方法 或 Delta 方法 , 哪 一 种 方法 更 
接近 真实 的 分 布 ? 

10. $ X1,-++ ,Xn ~ Uniform(0, 0). 极 大 似 然 估计 为 5 = Xin) = max{X1,… , Xn}. 

用 6 = 1 生成 一 个 样本 量 为 50 的 数据 集 . 

(a) 通过 找 出 6 的 分 布 解析 式 . 把 8 的 真实 分 布 与 用 参数 Bootstrap 方法 和 非 参 
Bootstrap 方法 画 出 的 直方 图 作 比 较 . 

(b) 在 这 个 例子 中 , IES Bootstrap 方法 表现 的 很 差 . WEH: 对 于 参数 Bootstrap 
方法 , PO = 8) = 0, 但 是 对 于 非 参 Bootstrap 方法 , P = Â) ~ 0.632. 提示 ， 
EW] P(O* = 8) = 1- (1 — (1/n))”, 并 对 其 取 极限 . 这 意味 着 什么 ? 


(b 


$108 “假设 检验 和 了 值 


假设 希望 知道 接触 石棉 和 得 肺癌 是 否 有 关系 . 为 此 ， 用 老鼠 做 实验 并 把 它们 随 
机 分 成 两 组 . 让 一 组 接触 石棉 , 而 另 一 组 不 接触 石棉 、 然后 比较 这 两 组 的 发 病 率 . 考 
虑 下 面 两 个 假设 

原 假设 : 两 组 的 发 病 率 是 一 样 的 - 

备 择 假设 : 两 组 的 发 病 率 是 不 一 样 的 

如 果 接 触 石棉 的 那 一 组 的 发 病 率 明显 高 于 没有 接触 石 棉 的 那 一 组 的 发 病 率 , 就 
拒绝 原 假设 , 证 明证 据 偏向 于 备 择 假设 . 这 就 是 假设 检验 的 一 个 例子 

更 为 正式 的 是 , 假设 把 参数 空间 © 分 成 两 个 不 相交 的 集 Oo 和 61. 希望 检验 


Ho :0€ Oo 对 :0€Q1. (10.1) 


称 Ho 为 原 假设 , Hi 为 备 择 假设 . 
Ay X 为 随机 变量 , 令 * 为 X 的 取 值 范围 通过 找 出 称 为 拒绝 域 的 适当 子 集 
RCA 来 检验 假设 . 如 果 X e R, 则 拒绝 原 假设 , 否则 ， 不 能 拒绝 原 假设 . 


XER => 拒绝 Ho， 
XER => 保留 (不 能 拒绝 ) Ho. 


通常 , 拒绝 域 R 的 表达 式 为 
R={x:T(X)>c}, (10.2) 


其 中 ，7 是 检验 统计 量 , c 是 临界 值 假设 检验 的 问题 是 找 出 恰当 的 检验 统计 基 了 
和 恰当 的 临界 值 c- 

注意 ! 人 们 常常 倾向 于 使 用 假设 检验 ， 尽管 它们 是 不 合适 的 . 估计 和 置信 区 间 
常常 是 更 好 的 工具 . 当 想 要 检验 一 个 定义 完善 的 假设 时 才 使 用 假设 检验 . 

假设 检验 就 像 法 院 的 审判 . 假设 犯罪 嫌疑 人 是 无 罪 的 ， 除非 有 足够 的 证 据 证 明 
他 是 有 罪 的 . 类 似 地 , 保留 Ho 除非 有 足够 的 证 据 拒绝 Ho 假设 检验 中 有 两 类 可 能 
犯 的 错误 . 当 Ho 为 真 时 拒绝 Ho 称 为 第 一 类 错误 Hı 为 真 时 保留 Ho 称 为 第 二 类 
错误 . 假设 检验 可 能 的 结果 汇总 在 表 10.1 中 . 


表 10.1 ”假设 检验 结果 汇总 表 
不 拒绝 Ho 拒绝 Ho 


v 
Hı x 第 二 类 错误 v 


CE 
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10.1 定义 定义 拒绝 域 为 已 的 假设 检验 的 势 函数 为 
B(8) = Po(X € R). (10.3) 


定义 假设 检验 的 容 度 为 
a= sup (0). (10.4) 
eeeo 


如 果 检 验 的 容 度 小 于 等 于 a 就 称 检验 的 水 平 为 a 


形式 为 9 = bo 的 假设 称 为 简单 假设 . 形式 为 > bo 或 9 < bo 的 假设 称 为 复合 
假设 . 形式 为 


Ho:0=00 对 Hy:04% 
的 假设 称 为 双边 检验 . 形式 为 

Ho:0<00 对 Hi:0>0 
或 

Ho:0>0 对 Hi:0<% 


的 假设 称 为 单 边 检验 . 最 常用 的 检验 是 双边 的 . 
10.2 例 $ Xi, Xn ~ N(u,0), KB o RA. 欲 检验 Ho: u < OX H : 
u > 0 因此 , Oo = (—00, 0] 和 1 = (0, 00). 考虑 下 面 的 检验 ， 


如 果 了 > c, 拒绝 Ho, 
其 中 , T= X. 拒绝 域 为 


R= {(21,-++,2n):T(21,-+- ,Tn) >c}. 
令 2 表示 服从 标准 正 态 分 布 的 随机 变量 . 势 函数 为 
blu) = P(X >) 
=P, (5 5 wit) 


o 
=P(z> ZEA) (xh, 2 ~ NoD) 
= 1-0 (Z6), 
o 


O 本 书 在 以 后 的 论述 中 多 使 用 size 一 词 而 不 是 level, 所 以 按照 习惯 将 size HY KPR “a 
度 ”一 词 . 


10.1 Wald 检验 119 


这 是 的 增 函 数 , 见 图 10.1. 因此 


KF = sup b(n) = 6(0) = 1-6 (=) l 
HA<0 o 


pu) 


Ho H, u 


图 10.1 例 10.2 的 势 函 数 
检验 的 水 平 是 当 Ho 为 真 时 拒绝 Ho 的 最 大 概率 . 这 在 u = 0 时 发 生 , 因此 容 度 为 8(0). 选择 临界 值 < 
使 得 8(0) =a 


对 于 水 平 为 a 的 检验 , SHEF a, 并 解 方程 得 到 c, 


og-1(1— a) 
Ae 


4 X > og-1(1 一 a)/Vn 时 拒绝 原 假设 . 这 与 当 


AE- n 
o 


c= 


时 拒绝 原 假设 等 价 , 其 中 , za = $1(1 — a). 

在 显著 性 水 平 为 a 的 检验 中 , 势 函数 最 高 的 检验 最 好 . 这 样 的 检验 如 果 存 
在 , 就 称 为 最 强 的 检验 . 找 出 最 强 的 检验 很 难 , 在 许多 情况 下 , 它 甚至 是 不 存在 的 . 
在 这 里 并 不 详细 介绍 什么 时 候 最 强 的 检验 存在 , 只 是 考虑 4 种 广泛 使 用 的 检验 ， 
Wald 检验 ?、xX2 检验 、 置 换 检验 和 似 然 比 检验 . 


10.1 Wald 检 验 


令 9 为 尺度 参数 , 令 6 为 9 的 估计 , 免 为 6 的 标准 差 的 估计 . 


© 这 个 检验 是 以 Abraham Wald(1902~1950) 的 名 字 命名 的 , 他 是 非常 有 影响 的 数理 统计 学 家 , 1950 
年 在 印度 因 飞 机 失事 遇难 . 
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10.3 ÈX Wald 检验 
考虑 检验 
Ho:0=0 对 Hi:0#0o. 


假设 日 是 渐 近 正 态 的 : 
9 6 ,wo,1). 
se 


显著 水 平 为 a 的 Wald 检验 : 当 |W| > za/2 时 拒绝 Ho, KP, 


w=, (10.5) 


& 


10.4 ÈE 渐 近 地 ，Wald 检验 的 显著 水 平 为 Qa, 即 当 n — oo 时 ， 


了 eo(| 呈 | > za/2) > a. 


证 明 由 于 0 = 6,0 — 00/8 ~ N(0,1). 因此 , 当 原 假设 0 = bo 为 真 时 拒绝 原 
假设 的 概率 为 


ô- 4 
Po.(|W| > za/2) = Poo (! = ol > zon) 


> P(|Z| > za/2) 


=a, 


HH, Z~ N(0,1). 
10.5 Wald 检验 另外 一 个 检验 统计 量 为 W = (9 一 00)/seo, 其 中 ，seo 是 在 
0 = bo 计算 出 来 的 标准 差 . 两 个 版 本 的 检验 都 是 正确 的 . 
让 我 们 考虑 原 假设 为 假 时 Wald 检验 的 势 函 数 . 
10.6 定理 假设 6 的 真实 值 为 9 AO, WHR BO.) 是 正确 拒绝 原 假设 的 概 
率 , 它 的 值 近似 为 
1-0 (25% + ton) +0 (27 +a): (10.6) 


& & 


EERME R, 5 趋向 于 0. 进一步 检查 (10.6), 可 以 得 到 : (i) 如 果 0. 离 
go 较 远 , 则 势 函 数 很 大 , (ii) 如 果 样 本 量 很 大 , 则 势 函数 很 大 . 

10.7 例 (比较 两 种 预测 算法 ) ”在 样本 量 为 m 的 检验 集 上 检验 一 个 预测 算法 ， 
在 样本 基 为 n 的 检验 集 上 检验 第 二 个 预测 算法 . 令 X 表示 算法 1 中 预测 不 正确 
的 个 数 , 令 Y 表示 算法 2 中 预测 不 正确 的 个 数 ， 则 X ~ Binomial(m,p1),Y ~ 
Binomial(n, po). 为 了 检验 原 假设 pi = po, 记 


Ho:6=0 对 名 :6#0. 
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其 中 ，5 = p — po. 极 大 似 然 估 计 为 = Bi — Ba, 它 的 标准 差 为 


UC R0, 
m n 


Wald 检验 的 显著 性 水 平 为 o, 就 是 当 |W| > zay2 时 拒绝 Ho, 其 中 ， 


当 pi 离 pz 较 远 和 样本 量 很 大 时 , 势 函数 会 很 大 

如 果 用 同一 个 检验 集 去 检验 两 个 算法 时 会 怎样 呢 ? 这 两 个 样本 不 再 独立 . 用 到 
下 面 的 策略 . 当 算法 1 正确 预测 第 i 个 观测 时 , 令 Xi = 1, BM, Xi = 0. 当 算 法 2 
正确 预测 第 i 个 观测 时 , 令 Yi = 1, BM, Yi = 0. 定义 Di = Xi 一 7. 一 个 典型 的 数 
据 集 具有 如 下 形态 : 


检验 观测 Xi Yi D; = Xi -Yi 
1 1 0 1 
2 1 1 0 
3 E 1 0 
4 0 1 -1 
5 0 0 


3 
aed 
1 


令 
ô = 下 (Di) = E(X;) — E(%) = P(z; = 1) — P(Y; = 1). 
5 非 参 嵌入 式 估计 为 = 万 =n-! Sno A eÂ) = S/ Vn, 其 中 5? =n Do - 
i=l i=1 
D). 为 了 检验 Ho: 6 =0 Xt Hy : ô £0, & W = 5/8, MIR |W] > a2, 则 拒绝 Ho. 
称 为 配对 检验 . 


10.8 例 (比较 两 个 均值 ) 令 Xi,… Xm AI Yi, ,Yn 是 分 别 从 均值 为 4 和 
po 的 总 体 中 独立 抽取 的 样本 . 检验 原 假设 y = pa, 即 检验 


Ho:6=0 对 Hı:ô#0, 


Fh, ô= — po. 回忆 起 5 的 非 参 嵌入 式 估计 为 8= X- 了, 其 标准 差 为 


2 2 
= 8 8 
= 242 


+ 
m n 
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这 里 sf 和 弛 是 样本 方差 . 水 平 为 a 的 Wald 检验 在 |W] > zaya 时 拒绝 Ho, 这 里 
0 XY 
~ J 
10.9 例 (比较 两 个 中 位 数 ) ”再 次 考虑 前 例 , 但 检验 两 个 分 布 的 中 位 数 是 否 相 
同 . 此 时 ， 


Ho:6=0 Xt M:540. 

其 中 ，5 = v1 — va, 而 v1,v2 是 中 位 数 . 5 的 非 参 嵌入 式 估计 为 人 = — wm, 这 里 
tite 为 样本 中 位 数 . 8 的 标准 误差 S 可 以 通过 Bootstrap 方法 得 出 Wald 检验 统 
计量 为 W = 6/s. 

Wald 检验 和 1 — a 的 近似 置信 区 间 ÔE seza 之 间 有 一 定 的 关系 , 由 下 述 定理 
给 出 . 

10.10 定理 ”显著 性 水 平 为 a 的 Wald 检验 拒绝 Ho : 9 = bo, 其 对 立 假设 为 
Hl1:0 关 00 当 且 仅 当 86g C, 其 中 ， 


C = (0 - za/2,0+ &zay2). 


因此 , 检验 该 假设 等 价 于 检查 假设 值 是 否 在 这 个 置信 区 间 中 . 

注意 ! 当 拒绝 Ho 时 , 经 常 说 这 个 结果 是 统计 显著 的 . 一 个 结果 可 能 是 统计 显 
著 的 , 但 是 这 种 作用 可 能 很 小 . 在 这 种 情形 下 , 结果 是 统计 显著 的 , 但 是 从 科学 性 上 
或 实用 性 上 讲 是 不 显著 的 . 统计 显著 性 和 科学 显著 性 的 区 别 从 定理 10.10 看 来 是 很 
容易 的 理解 . 不 包括 Oo 的 置信 区 间 对 应 于 拒绝 Ho. 但 置信 区 间 中 的 值 可 能 会 离 go 
很 近 (不 科学 显著 ), 也 可 能 离 bo 很 远 (科学 显著 ), 见 图 10.2. 


0 


o 


10.2 科学 显著 性 对 统计 显著 性 
显著 性 水 平 为 a 的 检验 拒绝 Ho : 9 = bo 当 且 仅 当 1 一 a 的 置信 区 间 不 包含 Oo. 有 两 种 不 同 的 置信 区 
间 ， 两 个 都 不 包含 bo, 所 以 在 两 个 例子 中 检验 都 拒绝 Ho. 但 在 第 一 种 情况 里 ,6 的 估计 值 接近 bo, 所 以 这 个 
发 现 可 能 缺少 科学 或 实际 的 价值 ， 在 第 二 种 情况 里 , 9 的 估计 值 远 离 go, 所 以 这 个 发 现 有 科学 价值 ， 这 说 明 
了 两 件 事 . 首先 , 统计 显著 性 不 表示 这 个 发 现 具有 科学 重要 性 . 其 次 , 置信 区 间 经 常 比 检验 更 有 信息 价值 


10.2 p ff 


报告 “拒绝 Ho” 或 “保留 Ho” 并 不 能 给 出 很 多 信息 . 相反 , 可 能 会 问 , 对 于 任 
Ho, 该 检验 是 否 会 拒绝 原 假设 . 更 一 般 地 , 检验 在 显著 性 水 平 a 拒绝 原 假设 , 那么 
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也 会 在 显著 性 水 平 d >a 拒绝 原 假设 . 因此 , 存在 一 个 拒绝 原 假设 的 最 小 的 显著 性 
KF a, 称 这 个 值 为 p 值 . 见 图 10.3. 令 X” = (X1, Xn), T” = (£1, ,zn). 


是 


拒绝 


e 
R 


pii 
FA 10.3 p 值 的 解释 


对 于 每 一 个 a, 可 能 会 问 : 检验 在 显著 性 水 平 a 拒绝 Ho UG? p 值 是 拒绝 Ho 的 
最 小 a 值 . 如 果 拒绝 Ho 的 证 据 足 够 强 , p 值 会 很 小 
10.11 定义 ”假设 对 于 任意 a € (0,1), 存在 显著 性 水 平 为 a 的 检验 , 它 的 拒绝 
RA Ra. 则 


= inf {a : T(X") € Ro} 
Bp, p 值 是 可 以 拒绝 Ho 的 最 小 显著 性 水 平 . 


非 正 式 地 , p 值 是 拒绝 Ho 的 证 据 强 弱 的 度量 : p 值 越 小 , 拒绝 Ho 的 证 据 越 强 . 


研究 人 员 常 常 使 用 下 面 的 证 据 强 弱 度 量 : 
p fit 证 据 
< 0.01 很 强 的 拒绝 Ho 的 证 据 
0.01~0.05 较 强 的 拒绝 Ho 的 证 据 
0.05~0.10 较 弱 的 拒绝 Ho 的 证 据 
>0.1 没有 证 据 可 以 拒绝 Ho 


注意 ! 大 的 p 值 并 不 是 保留 Ho 的 强 证 据 . P? SAARA G)Ho AK, 
RÉ (ii) Ho 为 假 但 是 势 函数 很 低 . 
注意 ! 不 要 把 p 值 和 P(Ho|Data) HRW. p ARAM NASIR 
© 将 在 贝 叶 斯 推断 那 一 章 讨论 像 P(Ho|Data) 这 类 量 . 
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下 述 定理 的 结论 说 明了 如 何 计算 p 值 . 


10.12 定理 假设 显著 性 水 平 为 a 的 检验 的 形式 为 
; 拒绝 Ho 当 且 仅 当 T(X") > ca 
则 
pti = sup P(T(X") > T(z"). 
eeeo 
其 中 , Zn RX” 的 观测 值 . 如 果 Go = {00}, 则 


7 值 =Peo(T(X") >T(z")). 


可 以 把 定理 10.12 表述 如 下 : 
p 值 是 指 , 如 果 Ho 成 立 , 检验 统计 量 的 值 和 实际 观测 值 一 样 或 更 大 的 概率 . 


10.13 定理 4 w= (9 一 00)/ 绝 表示 Wald 统计 量 的 观测 值 . D 值 由 下 面 的 公 
式 给 出 : 
pti. = Po, (|W| > lwl) = P(|Z| > lwl) = 28(-lwl), (10.7) 


HP, Z~N(0,1). 
为 了 理解 上 述 定理 , 见 图 10.4. 


-iwi iwi 


图 10.4 p 值 拒绝 Ho 的 最 小 a 什 
为 了 求 出 Wald 检验 的 p 值 , 求 出 使 得 w| 和 一 |w| 为 拒绝 域 边界 的 a 值 . 这 里 , w 是 Wald 统计 量 
的 观测 值 : w = (8 — 00)/@. 这 表示 p 值 是 P(|Z| > lw|) 的 尾部 面积 , HH, Z~ N(0, 1) 


p 值 有 一 个 重要 的 特点 . 
10.14 定理 。 如 果 检 验 统计 量 服从 连续 分 布 , WA Ho : 9 = bo F, p 值 服从 
均匀 分 布 U(0,1). 因此 , 如 果 当 p 值 小 于 a 时 拒绝 Ho, 那么 犯 第 一 类 错误 的 概率 
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Aa. 

换言之 , WR Ho 为 真 , p 值 就 像 是 从 均匀 分 布 Uniform(0,1) 中 随机 抽取 一 个 
数 . 如 果 Hi AM, 那么 p 值 的 分 布 会 集中 于 0 点 . 

10.15 例 回忆 例 7.15 中 的 胆固醇 数据 . 为 了 检验 均值 是 不 同 的 , 需要 计算 


witta X-Y = 216.2— 195.3 _ 3 78, 


se Vsi/m+s3/n V5 42.42 
HTHH p 值 , 令 Z ~ N(0,1) 为 服从 标准 正 态 分 布 的 随机 变量 , 则 
2 值 = P(|Z| > 3.78) = 2P(Z < 一 3.78) = 0.0002, 


这 是 拒绝 原 假设 的 很 强 的 证 据 . 为 了 检验 中 位 数 是 不 同 的 , ti, oe 为 样本 中 位 数 ， 
则 


轴 一 加 212.5 — 194 
sg 7.7 


其 中 , 标准 差 的 值 为 7.7 是 用 Bootstrap 方法 计算 的 . p 值 为 


W= = 2.4, 


PAA = P(|Z| > 2.4) = 2P(Z < -2.4) = 


这 是 拒绝 原 假设 的 很 强 的 证 据 . 


10.3 x? 分 布 


在 继续 下 面 的 章节 之 前 ， 首先 要 讨论 x? 分 布 . 令 2Z1,… , Ze 表示 独立 的 标准 
正 态 分 布 . 令 V = JOZ, 那么 就 说 V 服从 自由 度 为 上 的 X2 分 布 , 记 为 了 ~ x2. 


i=1 
V 的 概率 密度 函数 为 
yk/2-1e-v/2 
f(v) = WPT (K/2)’ 
其 中 ，v > 0. 可 以 证 明 E(V) = k,E(2V) = 2k. 定义 Xa = FA(1 一 Q) 为 上 a 分 
位 数 , 这 里 F 是 累计 分 布 函 数 . 也 就 是 P(x? > Xka) = a. 


10.4 多 项 分 布 数据 的 Pearson x? 检验 


Pearson x? 检验 可 以 用 于 多 项 分 布 数 据 . AREA, MEX = (Xr, Xk) 
服从 多 项 分 布 Multinomial(n,p), ABA p ?的 极 大 似 然 信 计 为 B= (By Pe) = 
(X1/n, +++, Xe/n). 

令 po = (po1,… por) 是 某 一 固定 的 向 量 , 假设 希望 检验 
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Ho:p=po Xt Mi: pF po. 


10.16 定义 ”PearsonX2 统计 量 为 


k k 
(Xj = npo)? (Xj - Bj)? 
T=V Seana oy A = 
2 NPoj > jo 

HP, Ej =E(X;) = mpoj 是 Xj 在 Ho 下 的 期 望 值 . 

10.17 定理 ”在 Ho F, T ~ xii A, FT > Xk ia 拒绝 Ho 的 检验 的 渐 
近 显 著 性 水 平 为 a. pA PO >t), KP, t 是 检验 统计 量 的 观测 值 . 
定理 10.17 可 以 用 图 10.5 说 明 . 


t 


图 10.5 p 值 是 拒绝 Ho 的 最 小 a 值 
ATRH xı 检验 的 p 值 , 求 出 这 样 的 a 值 使 得 检验 统计 量 的 观测 值 恰好 是 拒绝 域 边界 .这 说 明了 
a 是 尾部 面积 P(x >t) 


10.18 例 (Mendel HRTF) Mendel 把 饱满 的 黄 颜 色 殉 豆 和 皮 皱 的 绿 颜 色 豌 
豆 杂交 . 它们 的 后 代 有 四 种 可 能 : 饱满 的 黄 颜色 的 、 皮 皱 的 黄 颜色 的 、 皮 皱 的 绿 颜 
色 的 和 饱满 的 绿 颜色 的 . 每 一 种 类 型 的 个 数 服从 概率 为 p = (pi, p2, Ps, Pa) 的 多 项 分 
Ai. 他 的 遗传 理论 预测 p 等 于 
9 331 


n= (Fie ie is) i 
在 = 556 次 试验 中 , 观察 到 X=(315, 101, 108, 32). 将 检验 Ho : p = po 对 Ho: p # 
po. 由 于 npol = 312.75, npoz = npos = 104.25, npos = 34.75, 检验 统计 量 为 
2 _ (315 — 312.75)? | (101 - 104.25)? 
X = "312.75 104.25 
(108 — 104.25)? (32— 34.75)? _ 
104.25 3475 


0.47. 
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显著 性 水 平 a = 0.05 时 x3 的 临界 值 为 7.815. 由 于 0.47 没有 大 于 7.875, 所 以 不 能 
拒绝 原 假设 . p 值 为 


pti = P(x3 > 0.47) = 0.93. 


这 不 是 拒绝 Ho 的 充分 证 据 . 因此 , 数据 并 不 违背 Mendel 的 理论 ". 

在 前 面 的 例子 中 , 有 人 可 能 会 说 假设 检验 不 是 合适 的 工具 . 假设 检验 在 判断 是 
否 有 足够 的 证 据 拒 绝 Ho 时 非常 有 用 . 但 是 它 不 能 用 来 证 明 Ho 是 正确 的 . 不 能 拒绝 
Ho 可 能 是 因为 Ho 是 正确 的 , 也 有 可 能 是 因为 检验 的 势 函 数 很 低 . 在 这 个 例子 中 ， 
也 许 p 和 po 间距 离 的 置信 区 间 更 有 用 . 


10.5 置换 检验 
置换 检验 是 一 种 非 参 方法 , 它 可 以 检验 两 个 分 布 是 否 相同 . 这 个 检验 是 确切 的 ， 
BD, 它 不 是 基于 大 样本 渐 近 理论 的 . 假设 X1,… ,Xm ~ Fx A Yi, Yn ~ Fy EÈ 


两 个 独立 的 样本 , 原 假设 Ho 为 两 个 样本 , 来 自 相同 的 分 布 . 这 种 假设 可 以 用 来 考虑 
一 种 治疗 方法 和 安慰 剂 是 否 有 不 同 . 更 准确 的 说 , 检验 


Ho:Fx=Fy 对 Hi:Fx#Fy. 
令 T(z1,… Em Y ,yn) 是 某 一 检验 统计 量 , 例如 ， 
T(X1, , Xm Vi, = [Xm — Yal. 
令 入 =m+n, 并 考虑 数据 Xi, Xm Yiee ,Yn 的 NI 种 置换 . 对 每 一 个 置 
换 , 计算 检验 统计 量 T. 用 T ,Tw 表示 这 些 值 . 在 原 假设 成 立 的 前 提 下 , 每 一 个 


值 是 等 可 能 性 的 ”. T 取 每 个 Ty 的 概率 为 1/N!, Po 称 为 了 的 置换 分 布 . 令 tors 表 
示 检 验 统 计量 的 观测 值 . 假设 当 了 很 大 时 拒绝 原 假设 , p 值 为 


N! 
1 
PAE = Po(T > tovs) = g 2 I(T; > toba). 
‘j=l 


10.19 例 ”下 面 例 举 一 个 有 关 玩 具 的 例子 , 可 以 把 置换 检验 的 思想 理 得 更 清 
FE. 假设 数据 为 : (Xi, X2, Y1) = (1,9,3). $ T(X1, Xo, Mi) = |X -Y| = 2. 置换 为 


© Mendel 的 结果 是 否 “ 太 好 了 ”存在 争议 . 
D 更 精确 的 讲 , 在 原 假设 成 立 的 前 提 下 , 按 顺 序 排列 的 数值 X1,… , Xm, Yi,- ,Yn 服从 NI 置换 的 
均匀 分 布 . 
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置换 T 
(1,9,3) 
(9,1,3) 
(1,3,9) 
(3,1,9) 
(3,9,1) 
(9,3,1) 


值 概率 
1/6 
1/6 
1/6 
1/6 
1/6 
1/6 


aaa ele 


p 值 为 P(T > 2) = 4/6. 
通常 情况 下 , 把 N! 个 置换 都 计算 一 下 是 不 实际 的 . 可 以 从 置换 集中 随机 抽样 
然后 计算 近似 的 p {A (BET; > tobs 的 次 数 除 以 样本 的 个 数 就 是 近似 的 p 值 . 


置换 检验 的 算法 
1. 计算 检验 统计 量 的 观测 值 
tops 一 了 (rn 


2. 随机 置换 数据 . 用 置换 数据 再 次 计算 检验 统计 量 . 
3. 重复 前 面 的 过 程 B 次 , 令 T,… ,Ts 表示 结果 值 . 
4. 近似 的 p 值 为 


1 B 
J D I(T} > tovs). 


i=1 


10.20 例 DNA 芯片 让 研究 人 员 测量 数 千 种 基因 的 表达 水 平 . 数据 是 每 个 
基因 的 信息 RNA( 核 糖 核酸 ) 的 水 平 , 人 们 认为 它 能 够 测度 基因 能 生成 多 少 蛋白 
质 . 粗略 地 讲 , 这 个 数值 越 大 , 基因 越 活跃. 下 面 的 表 , 来 自 (Efron et al., 2001), 给 
出 了 10 个 携带 两 种 肝癌 细胞 的 病人 的 基因 表达 水 平 数 . 在 这 个 实验 中 有 2638 个 
基因 , 但 是 这 里 只 给 出 前 面 两 个 . 数据 是 芯片 中 两 种 不 同 染色 体 的 强度 水 平 的 对 
数 比 . 


类 型 I ZA I 
病人 1 2 3 4 5 | 6 7 8 9 10 


基因 1 230 一 1350 一 1580 一 400 -760 | 970 110 一 50 -190 “一 200 
基因 2 470 一 850 一 0.8 一 280 120 390 —1730 —1360 -1 一 330 


现 检验 两 组 中 基因 1 的 中 位 数 水 平 是 否 不 同 . 令 w 表示 类 型 I 的 基因 1 的 
中 位 数 水 平 , vo 表示 类 型 I 的 基因 1 的 中 位 数 水 平 . 样本 中 位 数 的 绝对 差 为 了 = 
M — de] = 710. 现在 通过 随机 模拟 来 估计 置换 分 布 , 并 估计 出 p 值 为 0.045. 因此 ， 
如 果 用 a = 0.05 的 显著 性 水 平 , 可 以 说 有 足够 的 证 明 拒绝 没有 差别 的 原 假设 . 
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在 大 样本 中 , 置换 检验 给 出 的 结果 常常 和 基于 大 样本 理论 的 检验 的 结果 类 似 . 
因此 , 置换 检验 主要 对 小 样本 非常 有 用 - 


10.6 WREN 


Wald 检验 在 检验 尺度 参数 时 非常 有 用 . 似 然 比 检验 更 加 一 般 , 它 可 以 用 来 检验 
向 量 参数 . 


10.21 定义 ”考虑 检验 


Ho:geeo 对 Hi:0¢ Oo. 
似 然 比 检验 统计 量 为 


supsce £09) ) _ 9 oq LO 


A= 21 sy 
oat supgeeo L(8) - C(bo) 


Ap, 日 是 极 大 似 然 估 计 , f 是 9 限制 在 Oo 上 的 极 大 似 然 估计 . 


也 许 很 希望 看 到 在 68 内 的 而 不 是 分 子 上 6 内 的 极 大 似 然 值 . 实际 上 ,用 © 代 
替 68 对 检验 统计 其 几乎 没有 影响 . 不 仅 如 此 , 如 果 检 验 统计 量 是 这 样 定义 , 那么 和 
的 理论 性 质 要 简单 得 多 . 

当 Oo 包含 0 的 所 有 使 得 6 的 某 些 坐标 固定 于 特定 值 的 参数 , 似 然 比 检验 是 最 
有 用 的 . 

10.22 定理 ”假设 09= (01,… ,0g,0gt1,… Or). A 


Go = {0: Orns- +r) = (ost bn) 
A 入 是 似 然 比 检验 统计 量 . 在 Ho :ge Bo 成 立 的 假设 下 ， 
A(z) x2 gar 


其 中 ,7 一 gq 是 日 的 维 数 减 去 Go 的 维 数 . 检验 的 了 HA POR > A). 

例如 , 如 果 9 = (01, 82,05, 04,05), 就 希望 检验 原 假设 94 = Os = 0, 那么 极限 分 
布 有 5 一 3=2 个 自由 度 . 

10.23 例 (Mendel HALE) ”再 次 考虑 例 10.18. Ho : p= po Xt Hı : p# 
po 的 似 然 比 检验 统计 量 为 


A = 2log 


L) 
L(Po) 
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4 . 入 
a) 
= j 


i=1 


E 315/556 101/556 
= 2 (15108 ( 9/16 ) + 101 og ( 3/16 ) 


+108 log (Se) + 32log (BE)) 


3/ 1/16 
= 0.48. 


EH 下 有 4 个 参数 . 然而 这 4 个 参数 之 和 必须 为 1, 所 以 参数 空间 的 维度 就 
是 3. 在 Ho F, 不 存在 自由 的 参数 , 所 以 限制 的 参数 空间 的 维度 为 0. 两 个 维度 的 
差 为 3. 因此 , 在 Ho 下 的 和 的 极限 分 布 为 :3, p 值 为 


7 值 = P(x3 > 0.48) = 0.92. 


这 个 结论 和 x? 检验 的 一 样 . 
当 似 然 比 检验 和 x? 检验 都 可 以 用 时 , 正如 上 述 例 表明 的 那样, 只 要 样本 量 足够 
大 , 这 两 个 检验 的 结论 类 似 . 


10.7 多 重 检验 


在 某 些 情况 下 , 可 以 作 许多 假设 检验 . 在 例 10.20 中 , 实际 上 有 2638 个 基因 . 如 
果 对 每 个 基因 都 检验 是 否 有 区 别 , 那么 就 要 作 2638 次 独立 的 检验 ,假设 每 个 检验 
都 是 在 显著 性 水 平 a 下 做 的 . 对 于 每 一 个 检验 , 错误 的 拒绝 原 假设 的 概率 为 a. 但 
是 至 少 有 一 个 错误 拒绝 原 假设 的 概率 就 要 高 得 多 . 这 就 是 多 重 检验 问题 . 这 个 问题 
在 数据 挖掘 情况 下 出 现 , 可 能 需要 作 几 千 次 甚至 上 万 次 检验 有 很 多 方法 可 以 处 理 
这 个 问题 , 这 里 将 介绍 两 种 方法 . 

考虑 m 个 假设 检验 : 


Hoi 对 Hii,i=1,.…,m, 


S Pi Pm 表示 这 些 检 验 的 p 值 . 


Bonferroni 方法 


假设 p 值 为 已，…… , Pm, 如 果 


a 
RS, 
m 


则 拒绝 原 假设 . 


10.24 定理 ”用 Bonferroni 方法 , 错误 拒绝 任何 原 假设 的 概率 小 于 或 等 于 a. 
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证 明 OR 表示 至 少 有 一 个 原 假设 被 错误 拒绝 的 事件 令 表示 第 i 个 原 假 
设 被 错误 拒绝 的 事件 .由 于 公式 P (Ù a) < EE, P(A) 对 所 有 事件 41,… , Ak 
i=1 
成 立 , 所 以 根据 定理 10.14 TA, 


P(R) =?(Ua) < PR) == =e 
i=l i=l i=l 


10.25 例 “在 基因 例子 中 , 用 a = 0.05, 则 有 0.05/2638 = 0.00001895375, 因此 ， 
对 于 任意 一 个 p 值 小 于 0.00001895375 的 基因 , 就 可 以 说 存在 显著 差异 . 
Bonferroni 方法 是 非常 保守 的 方法 ， 因为 它 试图 使 得 不 可 能 犯 一 个 拒绝 原 假设 
的 错误 ， 有 时 , 一 个 更 合理 的 想法 是 控制 错误 发 现 率 (FDR), 它 是 错误 拒绝 次 数 的 
均值 和 拒绝 的 次 数 的 比值 . 
假设 拒绝 了 所 有 p 值 低 于 某 一 疼 值 的 原 假设 . 令 mo 表示 原 假设 正确 的 次 数 ， 
Ay my =m- mo. 这 些 检验 可 以 用 表 10.2 中 2x2 的 表 来 表示 . 


表 10.2 ”多 重 检验 中 结果 的 类 型 


不 拒绝 Ho 拒绝 Ho 总 计 

Ho 为 真 U V mo 
Ho 为 假 T s m 
总 计 m-R R m 


cn d ŘŘŮĖŐ——— 
定义 错误 发 现 比例 (FDP) 为 
Be { V/R, R>0, 
0 R=0. 
FDP 是 错误 拒绝 原 假设 的 比例 . 下 面 定义 FDR=E(FDP) 
Benjamini-Hochberg(BH) 方法 


1. 令 Pay <… < Pim) 表示 排序 后 的 了 值 . 


2. X 
Ex =>, R=max{i: Pay <4}, (10.8) 


其 中 , 如 果 p 值 独立 , 则 Cm 定义 为 1, 否则 Cm = > (1/i). 
i=l 


3.47 = Pay, WETH BH 1E. 
4. 拒绝 所 有 Pi < 了 的 原 假设 Hoi- 

10.26 定理 (Benjamini 和 Hochberg) ”如 果 应 用 了 上 面 的 过 程 , 那么 不 管 有 多 
少 原 假设 是 正确 的 ， 也 不 管 原 假设 为 不 真 时 p 值 的 分 布 是 什么 ， 都 有 


FDR = E(FDR) < Ta <a. 


UKE ŘŮŐ—— 
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10.27 例 图 10.6 在 纵 轴 给 出 了 6 个 有 序 的 p 值 . 如 果 不 作 任何 多 元 检验 的 
校正 就 在 显著 性 水 平 a 下 作 检 验 , 就 会 拒绝 所 有 p 值 小 于 a 的 原 假设 . 在 这 种 情形 
下 , 将 有 4 个 最 小 对 应 的 p 值 的 假设 被 拒绝 . Bonferroni 方法 拒绝 p 值 小 于 a/m 的 
假设 . 在 这 种 情形 下 , 将 没有 一 个 假设 被 拒绝 . BH 阐 等 于 斜率 为 a 的 直线 下 的 最 
后 一 个 p 值 . 这 使 得 本 例 中 有 两 个 假设 被 拒绝 . 


图 10.6 Benjamini-Hochberg(BH) 过 程 
对 于 不 相关 检验 , 4 Pi < a 时 , 拒绝 原 假设 . 对 于 Bonferroni 检验 , 当 P; < a/m 时 , 拒绝 原 假设 . 当 
P; ST tt, BH 过 程 拒绝 原 假设 BH MRU T 对 应 于 向 上 斜 线 与 最 右 端 下 划 线 的 交叉 


10.28 例 ”假设 10 个 独立 的 假设 检验 得 到 了 如 下 的 有 顺序 的 p 值 : 


0.00017, 0.00448， 0.00671, 0.00907, 0.01220, 
0.33626, 0.39341, 0.53882, 0.58125, 0.98617. 


HE a = 0.05 的 显著 性 水 平 下 , Bonferroni 检验 拒绝 所 有 p 值 小 于 2/10 = 0.005 的 假 


设 . 因此 , 只 有 前 面 两 个 假设 被 拒绝 了 . 对 于 BH 检验 , 发 现 使 得 Po < ia/m 的 最 
大 的 i 为 i=5. 因此 , 拒绝 前 面 5 个 假设 . 


10.8 拟 合 优 度 检 验 


还 有 一 种 检验 情况 , 就 是 希望 检查 数据 是 否 来 自 一 个 假设 的 参数 模型 . 这 样 的 
检验 有 很 多 种 , 现在 来 说 明 一 种 . 
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令 和 = {f(z;0) : 0 € O} 为 一 个 参数 模型 .假设 数据 在 实数 线 上 取 值 . 把 实数 线 
分 成 上 个 不 相交 的 区 间 五 ，…… , .对 于 j= 二 1,… ,kk, 令 


(0) = | 10da 
表示 在 假设 的 模型 下 , 一 个 观测 值 落 入 区 间 I 的 概率 , 其 中 ,0 = (91,… 0) 是 仿 


设 的 模型 的 参数 . 令 N; 表示 落 入 石 的 观测 数 . 基于 计数 Nu … , Nk 的 的 似 然 
函数 为 多 项 分 布 似 然 函数 


k 
QU)= 工 zw(O 
j=l 
使 Q(0) 最 大 化 得 到 0 的 估计 为 5 = ( 抽 ,… 0). 现 定义 检验 统计 量 
$ 7 
-np 
Q = np) 


10.29 EEE A Ho 表示 数据 是 从 模型 和 = {f(z;9) :0 € 0} 中 独立 同 分 布 抽 
取 的 , 在 Ho 的 假设 下 , (10.9) 中 定义 的 检验 统计 量 依 分 布 收敛 于 随机 变量 X-is 
因此 , 在原 假 设 下 这 个 检验 近似 的 也 值 为 P(XR_i_。> 9), 其 中 9 表示 @ 的 观测 


(10.9) 


如 果 尝 试 在 (10.9) 中 用 极 大 似 然 估 计 6 代替 0 那么 这 得 不 到 检验 统计 量 的 极 
限 分 布 是 Xis 的 结论 . 但 是 ， 由 Herman Chernoff 和 Erich Lehmann 在 1954 年 
证 明 的 定理 可 知 , p A LE BI X-is Sk 得 到 的 了 值 . 

拟 合 优 度 检验 有 很 大 的 局 限 性 . 如 果 拒绝 Ho, 那么 就 不 能 用 这 个 模型 . 但 是 , 如 
果 不 能 拒绝 Ho, 也 不 能 得 出 结论 说 这 个 模型 是 正确 的 . 不 能 拒绝 也 许 只 是 因为 这 个 
检验 没有 足够 的 势 . 这 就 是 为 什么 最 好 尽 可 能 使 用 非 参 方法 而 不 要 依赖 于 参数 假设 
的 原因 . 


10.9 文献 注释 


关于 检验 最 详尽 的 书 是 (Lehmann, 1986). 也 可 以 参考 (Casella and Berger, 
2002) 的 第 8 章 和 (Rice, 1995) 的 第 9 章 . FDR 方法 是 由 Benjamini 和 Hochberg(1995) 
提出 的 . 一 些 习 题 选 自 (Rice, 1995). 


10.10 K 录 


10.10.1 Neyman-Pearson 引 理 


对 于 一 个 有 简单 的 原 假设 Ho : 9 = Oo 和 简单 的 备 择 假设 Hi : 0 二 名 的 经 典 例 
FP, 可 以 给 出 确切 的 最 强 的 检验 . 


一 
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10.30 定理 (Neyman-Pearson) ”假设 要 检验 Ho : 0 =O H Hi :0=0). A 


假设 当 全 > 大 时 , 拒绝 Ho. 如 果 选 择 上 使 得 oo(T > k) = a, 那么 这 个 检验 是 最 强 
的 显著 性 水 平 为 a 的 检验 , 即 在 所 有 显著 性 水 平 为 a 的 检验 中 , 这 个 检验 的 势 函数 
BO) 最 大 . 


10.10.2 ¢ #258 

要 检验 Ho : w= wo, 这 里 p = E(X;) 是 均值 , 可 以 使 用 Wald 检验 . 当 假设 数据 
服从 正 态 分 布 , 且 样 本 基 很 小 时 , 常常 使 用 t 检验 . 如果 随机 变量 T 的 密度 函数 为 
T(k + 1/2) 


TO = TERR F/T 


则 称 T 为 服从 自由 度 为 大 的 上 分布 . 当 自由 度 k 一 oo 时 , t 分布 趋向 于 正 态 分 布 . 
当 上 = 1 时 , 它 就 是 柯 西 分 布 . 
令 Xu ,Xk ~ N(u,07), 这 里 6 = (u,0?) 均 未 知 . KRR u = po X} uF po. 
a 
_ Vn(Xn - uo) 
tr 


这 里 52 是 样本 方差 . 对 于 大 样本 来 说 ,在 Ho FT © N(0,1). 在 Ho 下 工 的 分 布 是 
如 -1. 因此 , 如 果 当 |T| > tn-1,a/2 时 拒绝 原 假设 , 就 得 到 一 个 显著 性 水 平 为 a 的 检 
验 . 然而 , 当 n 适当 大 时 , t 检验 在 本 质 上 等 同 于 Wald 检验 . 


10.11 习 题 
1. 证 明定 理 10.6. 
2. 证 明定 理 10.14. 
3. 证 明定 理 10.10. 
4. 证 明定 理 10.12. 
5. & Xi,-++,Xn ~ Uniform(0,0), HS y = max{ X1, +- ,Xn}. 


检验 Ho : 0 =1/2 X} Hı : 0# 1/2, 

在 这 里 Wald 检验 不 合适 , 因为 Y 并 不 是 收敛 于 正 态 分 布 . 假设 希望 当 Y > c 时 
拒绝 原 假设 . 

(a) 求 势 函 数 . 
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(b) c 取 什 么 值 时 使 得 检验 的 显著 性 水 平 为 0.05? 

(c) ERREA n= 20 和 了 = 0.48 的 样本 中 ,p 值 是 多 少 ? 关于 Ho, 结论 是 
什么 ? 

(d) ERREA n = 20 和 了 = 0.52 的 样本 中 ,Pp 值 是 多 少 ? 关于 Ho, 结论 是 
什么 ? 

6. 有 一 种 理论 认为 人 可 以 因为 重大 事件 而 稍微 延迟 死亡 . 为 了 检验 这 个 理论 , Phillips 
和 King(1988) 在 犹太 人 的 逾越 节 前 后 搜集 了 一 些 死亡 报告 的 数据 . 在 1919 例 死 
亡 报告 中 , 有 922 人 在 节日 前 一 周 死亡 , 有 997 人 在 节 后 一 周 死亡 . 把 这 当 作 二 
项 分 布 考 虑 , 并 检验 原 假设 9 = 1/2. 计算 并 解释 p 值 . 同时 构建 9 的 置信 区 间 . 

. 在 1986 年 , 有 10 篇 评论 刊登 在 New Orleans Daily Crescent E. 它们 的 署名 是 
“Quintus Curtius Snodgrass” , 有 人 怀疑 它们 实际 上 是 马克 - 吐 温 所 写 . 为 了 调 
查 这 一 点 , 将 考虑 作者 文章 中 由 三 个 字母 构成 的 词 的 比例 . 

在 马克 吐 温 的 8 篇 文章 中 , 这 个 比例 为 
0.225, 0.262, 0.217, 0.240, 0.230, 0.229, 0.235, 0.217. 

在 Snodgrass 的 10 篇 文章 中 , 这 个 比例 为 

0.209， 0.205， 0.196， 0.210， 0.202， 0.207， 0.224， 0.223， 0.220， 0.201. 
(a) 做 假设 均值 相等 的 Wald 检验 . 用 非 参 嵌 入 式 估计 . RH p 值 和 均值 差 的 95% 

的 置信 区 间 . 结论 是 什么 ? 
(b) 使 用 置换 检验 来 避免 大 样本 方法 , 结论 是 什么 (Brinegar, 1963)? 
8. Xir ,Xn ~ N(0,1). 考虑 检验 


~a 


Ho:0=0 对 Hı:0=1, 


令 拒绝 域 为 R= {2":T(2") > ch, 其 中 ,T(z") =n) Xi. 


i=l 
(a) 求 出 使 得 显著 性 水 平 为 a Hy ct. 
(b) 求 出 在 Ai 下 的 势 函 数 , 即 求 出 5(1). 
(c) 4 n > 00 BY, 8(1) > 1. 
9. 令 人 是 9 的 极 大 似 然 估 计 , & 8 = {nT(b)} -12, 其 中 ，7(9) 是 Fisher 信息 量 . 考 
虑 检验 
Ho :0=0) 对 Hi:04 bo. 
考虑 拒绝 域 为 R= {zm : |Z| > 20/2} 的 Wald 检验 , 其 中 ，2 = (6 - 0)/%. 令 


b > bo 是 某 一 备 择 假 设 , 证 明 6(91) 一 1. 
10. 下 面 的 数据 是 年 老 的 犹太 女性 与 中 国 女性 在 中 秋 节 前 后 死亡 的 数据 : 
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周 中 国人 RKA 
-2 55 141 
-1 33 145 
1 70 139 
2 49 161 
—————-.A 1 N 


比较 两 种 死亡 模式 (Phillips and Smith, 1990). 
11， 有 一 个 随机 的 双 盲 实验 是 为 了 评价 几 种 药品 对 降低 术 后 恶心 的 效果 ， 数 据 如 
下 : 


病人 数 恶心 病例 数 
Placebo 80 45 
Chlorpromazine 75 26 
Dimenhydrinate 85 52 
Pentobarbital(100 mg) 67 45 
Pentobarbital(150 mg) 85 37 
(a) 在 5% 的 显著 性 水 平 下 , 检验 每 种 药品 和 安慰 剂 的 区 别 . 同时 , 计算 估计 的 
优势 比 . 总 结 你 的 结论 . 


(b) 用 Beonferroni 和 FDR 方法 调整 多 重 检验 (Beecher, 1959). 
12. 4 Xl,.… , Xn ~ Poisson (A). 
(a) $ Ao > 0. RH 
Ho:A=o 对 :A# 和 0 
的 显著 性 水 平 为 a 的 Wald 检验 . 
(b) (计算 机 试验 ) 4 Ao = 1,n = 20 和 a = 0.05. 随机 模拟 Xi, Xn ~ 
Poisson(Ao), 并 做 Wald 检验 . 重复 多 次 , 并 数 出 有 多 少 次 拒绝 了 原 假设 . 犯 
第 一 类 错误 的 概率 和 0.05 有 多 接近 ? 
13. Xii, Xn ~ N(u,07). 构造 似 然 比 检验 来 检验 


Ho: =o 对 Hi :jp #1, 


并 把 它 和 Wald 检验 相 比较 . ; 
14. Xi,- , Xn ~ N(u,07). 构造 似 然 比 检验 来 检验 


Ho:0=00 对 Hi:0 #00, 


并 把 它 和 Wald 检验 相 比 较 . 
15. X ~ Binomial (n, p). 构造 似 然 比 检验 来 检验 


Ho:p=po 对 Hi:p#po, 


并 把 它 和 Wald 检验 相 比较 . 
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16. 令 9 是 尺度 参数 , 假设 检验 
Ho:0=0 对 Hi:0 #6. 


令 W 是 Wald 检验 统计 量 , 令 和 是 似 然 比 检验 统计 量 . 证 明 这 两 个 检验 在 下 述 
意义 下 是 等 价 的 : 当 n oo 时 ,有 
W? P 
yo. 


提示 : 对 对 数 似 然 画 数 €(0) 用 泰勒 公式 展开 , 证 明 
ax (Vi@ 00) (- 3e@®) 
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11.1 贝 叶 斯 理论 体系 


之 前 讨论 的 统计 方法 都 是 频率 论 方法 (或 经 典 方法 )， 频 率 论 方法 的 观点 基于 
下 面 的 假设 : 
F1 概率 是 相对 频数 的 极限 . 概率 是 现实 世界 的 客观 属性 . 
F2 参数 是 固定 的 未 知 常数 . 因为 它们 不 会 变化 , 所 以 不 能 作 关于 参数 的 概率 陈 
述 . 
F3 统计 过 程 应 当 具有 频率 特征 . 例如, 95% 的 置信 区 间 应 该 包含 参数 真实 值 
的 频率 至 少 有 95%. 
另外 一 种 推断 方法 称 为 贝 叶 斯 推断 . 贝 叶 斯 方法 基于 下 面 的 假设 : 
B1 概率 描述 的 是 信心 的 程度 , 不 是 有 频率 的 极限 . 正 因为 如 此 , 才 可 以 对 许多 
事情 用 概率 描述 , 不 光 是 服从 随机 变量 的 数据 例如, 可 以 说 “ 爱 因 斯 坦 在 
1948 年 8 H 1 日 喝 一 杯 茶 的 概率 为 0.35”. 这 并 没有 提 到 任何 频率 的 极限 . 
它 反映 了 相信 命题 为 真 的 强度 . 
B2 尽管 它们 是 固定 常数 , 但 可 对 参数 用 概率 描述 . 
B3 通过 9 的 概率 分 布 来 推断 参数 9, 像 点 估计 和 区 间 估计 等 推断 可 以 从 分 布 
中 抽取 出 来 . 
贝 叶 斯 推断 是 一 个 有 争议 的 方法 , 因为 它 先天 包含 概率 的 主观 概念 . 一 般 来 说 ， 
贝 叶 斯 方法 不 能 保证 长 远 的 表现 . 尽管 统计 领域 更 关注 频率 方法 , 贝 叶 斯 方法 还 是 
有 一 席 之 地 的 . 某 些 数据 挖掘 和 机 器 学 习 领 域 非常 信奉 贝 叶 斯 方法 . 抛 开 哲 学 观点 
的 争议 , 先 来 看 如 何 作 贝 叶 斯 推断 . 然后 , 在 本 章 最 后 将 讨论 贝 叶 斯 方法 的 优 缺 点 . 


11.2 贝 叶 斯 方法 


贝 叶 斯 推断 通常 用 下 面 的 方法 来 作 : 
1. 选择 概率 密度 £(0), 称 为 先 验 分 布 , 它 表 示 在 观察 到 数据 之 前 对 参数 的 经 验 


判断 . 

2. 选择 统计 模型 f(z|6), 它 反映 出 给 定 9 F, 对 z 的 经 验 判断 . 注意 , 把 这 写 为 
Ff (2/0), 而 不 是 f(z; 6). 

3. 有 了 观测 数据 X!，… ，X 后 ， 改进 原来 的 经 验 判断 ， 并 计算 后 验 分 布 
FOX, ,Xn). 


为 了 说 明 第 3 步 是 怎么 做 的 , 首先 假设 9 是 离散 的 , 而 且 只 有 一 个 离散 的 观测 
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X. 因为 把 参数 看 作 是 一 个 随机 变量 , 所 以 用 大 写字 母 6 来 表示 它 . 在 离散 情形 下 ， 
P(X =2,0 =8) 
P(X =z) 
_ _P(X = z719 = OP(O = 8) 
> P(X = 2/0 =0)P(8 = o) 
8 


P(O=0X=7) = 


这 步 推导 可 以 由 第 1 章 的 贝 叶 斯 定理 得 到 . 变量 连续 的 版 本 可 以 用 密度 函数 得 到 


EONO 
SOE) = TETO 


如 果 有 n 个 独立 同 分 布 的 观测 X1,… ,Xn, 则 用 


(11.1) 


Je，znlg) = [I f(zil0) = Cn(O) 


i=1 


代替 f(z|0). 
概念 ”用 X" 表示 (X1,… ,Xn), 用 2” 表示 (zzn) 于 是 ， 
ny _ f(z"|O)f(0) _ £n(0) F(A) 
f(0lz")= TICO m œ Ln (0) f (0), (11.2) 
其 中 ， 


aa jf Ln(O)f (0)d0 (11.3) 


称 为 归 一 化 系数 . 注意 , cn 不 依赖 于 9. 于 是 可 以 汇总 如 下 : 
后 验 与 似 然 函 数 和 先 验 分 布 的 乘积 成 比例 , 用 公示 表示 就 是 
f(0lz") cc Ln(0)f(0). 


或 许 会 想 , 把 常数 cn 去掉 会 有 问题 吗 ? 答案 是 , 如 果 需 要 常数 , 那么 可 以 在 后 
面 恢复 它 . 

后 验 分 布 有 什么 作用 呢 ? 首先 , 可 以 通过 集中 后 验 的 中 心得 到 点 估计 . 通常, 使 
用 后 验 的 均值 或 众 数 . 后 验 均值 为 


J 9Ln(0)f(0)d0 
JEn) FOA * 

也 可 以 得 到 贝 叶 斯 区 间 估 计 . 可 以 求 出 a 和 b, 使 得 三 SOl”) = 
SE £(8\x")d@ = a/2. & C = (a,b). 则 


On = J bjf(blz")db = (11.4) 


b 
P(b € Clz") = [ (glzn)dg =1 — o, 


一 
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所 以 C 是 1 一 a 后 验 区 间 . 
11.16) 4 Xi,- , Xn ~ Bernoulli (p). 假设 把 均匀 分 布 f(p) =1 作 为 p 的 
先 验 分 布 . 根据 贝 叶 斯 定理 , 后 验 的 形式 为 


flplz™) œ fp)Ln(p) = p*(1 — py"? = p11 —p)" +t, 
Hp, s=) zi 是 成 功 的 次 数 . 回想 起 如 果 一 个 随机 变量 服从 参数 为 a 和 6 的 


izi 
Beta 分 布 , 其 密度 为 
T(a+8) 。 


flp;0, 8) = FORDJZ 1(1 —p)e™1. 
TARH p 的 后 验 分 布 是 参数 为 s+1 和 n 一 s 十 1 的 Beta 分 布 , BI 
T(n+2) 


f(plz”) = T(s+1)T(n—s+ pra Spe 


将 其 记 为 

plz” ~ Beta(s + 1,n — s +1). 
注意 到 并 没有 真正 做 积分 /Cn(p)f(p)dp 就 求 出 了 归 一 化 系数 . Beta (a, 6) 的 均值 
为 /(a + B), 所 以 贝 叶 斯 估计 为 


3 十 1 
n+ 


p= y (11.5) 


~ 


可 以 把 这 个 估计 改写 为 
P= AnP + (1—An)P, (11.6) 
其 中 , P 是 极 大 似 然 估计 , 了 = 1/2 是 先 验 均值 ，Xn = n/(n +2) © 1. 通过 计算 
J? f(ple”)dp = 0.95 得 到 a Al b, 从 而 得 到 一 个 95% 的 后 验 区 间 . 
假设 先 验 分 布 不 是 用 均匀 分 布 , 而 是 用 p ~ Beta (a, B). 如 果 重 复 上 述 的 计算 ， 
可 以 得 到 pix” ~ Beta (a+s,8+n—s). ATER (均匀 分 布 ) 仅仅 是 = 有 = 1 时 
的 一 个 特例 . 后 验 均 值 为 
a a+s n re a+pB 
P= atBtn (argu) a (5) 
其 中 , po = a/(a + 6) 是 先 验 均值 . 
在 前 面 的 例子 中 , 先 验 是 Beta 分 布 , 后 验 也 是 Beta 分 布 . 当先 验 和 后 验 是 同 
一 族 时 , 则 称 先 验 是 关于 模型 苍 的. 


11.2 例 $ Xr ,Xn ~ N(0,0°). 为 简单 起 见 , 假设 o 已 知 . 假设 先 验 为 
0 ~ N(a,b?). 则 9 的 后 验 分 布 为 (证 明 留 作 习题 一 一 11.12 习题 1. ) 


bX" ~ N, 7°). (11.7) 
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其 中 ， 
6=wX +(1-w)a, 
__ l/s : ee: rae | 
“Ter AT set 
其 中 , se= o/Vni 是 极 大 似 然 估计 X 的 标准 差 . RBI L—TPT. 注意 
到 当 n 一 00 时 ,ww 一 1 和 7/se — 1, 所 以 对 于 足够 大 的 n, 后 验 近似 服从 N Ô, se?). 
假设 n 固定 , 而 当 b 一 co 时 结果 也 一 样 , 这 相当 于 令 先 验 变 得 非常 扁平 . 
继续 这 个 例子 , 会 求 出 C = (c,d), 使 得 PO € CIX”) = 0.95. 这 个 解 可 以 通过 
求 出 满足 P( < c|X") = 0.025 和 P(9 > d|X") = 0.025 的 c 和 d 而 得 到 . 因此 , 希 
望 求 出 c 使 得 


P(0 < c|Xn) = ? (Sr < sfe) 
T P 


c-6 
= e(z < =) = 0.025. 
已 知 P(Z < —1.96) = 0.025, 所 以 

c-6 
F 
这 意味 着 c = 5 - 1.967. 类 似 的 过 程 , 可 求 得 d = 5 + 1.96r. 所 以 95% 的 贝 叶 斯 区 
间 为 5 土 1.967. HF I = 8,7 ~ se, 所 以 95% 的 贝 叶 斯 区 间 为 O 士 1.96se, 这 是 频率 


统计 中 的 置信 区 间 . 


= 一 1.96. 


11.3 参数 函数 


如 何 对 函数 r = g(9) 作 推 断 呢 ? 在 第 3 章 中 解决 了 如 下 问题 : 给 定 X 的 密度 
函数 fx, RY = g(X) 的 密度 函数 . 现在 来 简单 地 应 用 相同 的 原理 . 7 的 后 验 分 布 
函数 为 

Hrle") = P(gl0) < re") = 人 yolenab， 
其 中 , A = {0 : 9(0) < 7}. 后 验 密 度 为 h(7|z") = H'(7|z"). 

11.3 例 4 XI,… ,Xn ~ Bernoulli (p) 和 f(p) = 1, 使 得 p|X" ~ Beta(s + 

Ln 一 s 十 1), 其 中 , s=) zi. & y = log(p/(1 — p)), 则 


i=1 


an) = PW < ve") =P (10g (775) < vie") 
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=P (P<—e j 
SIF” 


eY /(1te”) 
-f jplznjdp 


T(n+2) +e) 
~ T(s+1)r(n—s+1) Jo 


p*(1—p)"~*dp 
以 及 
h(pla") = H'(ylz") 


oe 
= mer (3) (a) (c=) 


E T(s Fi 2 1) (; o) (; +3) E a3). 


-mere (rea) (aes) 


其 中 , per. 


11.4 随机 模拟 


后 验 经 常 可 以 通过 随机 模拟 近似 . 假设 抽取 01,… , 98 ~ pOlr”). 01,… 9p 的 

直方 图 近似 为 p(blz") 的 后 验 概率 密度 . 后 验 均值 5 = Elor”) 近似 为 BY 0 
j=1 

1 一 a 的 后 验 区 间 可 以 用 (ay2,91_ay2) 近似 , 这 里 gba/ 是 抽 ,… OB 的 a/2 样 

本 分 位 数 . 

一 旦 有 从 jblz") 抽取 的 样本 1,… ,gB, 令 ni = g(0i). 那么 71,… ,Tp 是 从 
jy(rlz") 中 抽取 的 样本 . 这 就 避免 了 做 任何 分 析 计 算 . 随机 模拟 将 在 第 24 章 更 详细 
地 讨论 . 

11.4 例 再 一 次 考虑 例 11.3. 可 以 近似 求 出 Y 的 后 验 而 不 用 作 任何 计算 . 步 
KWF: 

1. 抽取 Pi,- ,Pe ~ Beta(s +1,n -s+ 1). 

2. X} i= 1,- , B, & vj = log(P;/(1 — P;))- 

现在 vi ,ya 是 根据 hla”) 独立 抽取 的 . 这 些 值 的 直方 图 给 出 了 h(wlz") 
的 估计 . 


11.6 “扁平 先 验 、 非 正常 先 验 和 无 信息 的 先 验 143 


11.5 “ 贝 叶 斯 过 程 的 大 样本 属性 


在 Bernoullip 和 正 态 例子 中 , 看 到 后 验 均值 接近 极 大 似 然 估计 . 这 在 更 广泛 的 
情况 下 都 是 正确 的 

11.5 定理 AO, 是 极 大 似 然 估计 , A = 1//nlG,). 在 适当 的 正则 条 件 
F, 后 验 近 似 为 均值 为 In, RAZA SHERPA. Bak, Bn ~ 后 .同时 ,如果 
Cn = (On — 2/28, n + 20/28) 是 频率 统计 中 1 一 Q 的 渐进 置信 区 间 , 那么 Cn 也 是 
1-a 的 贝 叶 斯 后 验 区 间 估 计 ; 


P(6 € C,|X") > 1- a. 
同样 , 也 有 贝 叶 斯 Delta 方法 . 4 T = g(0), 那么 


T|X” ~ N(F, $), 


其 中 ,了 = g(9), Se = &lg' (0) 


11.6 ”扁平 先 验 、 非 正常 先 验 和 无 信息 的 先 验 


在 贝 叶 斯 推断 中 有 一 个 重要 的 问题 从 哪里 得 到 先 验 jb) YE? 一 种 称 为 主观 
主义 的 学 派 说 先 验 应 该 反映 出 对 9 的 主观 意见 (在 搜集 数据 之 前 就 有 的 ). 这 在 一 些 
例子 中 是 可 行 的 , 但 是 , 在 复杂 问题 , 尤其 是 多 参数 问题 中 ， 这 是 不 切实 际 的 . ME, 
把 主观 意见 放 到 分 析 中 和 尽 可 能 的 做 科学 推断 的 目标 相 矛 盾 . 一 种 备 选 方法 是 尝试 
定义 一 些 “无 信息 的 先 验 ”. 无 信息 先 验 最 明显 的 候选 者 就 是 扁平 先 验 , 即 F(A) x 
常数 . 

在 Bernoullip 例子 中 , 考虑 f(p) = 1 得 到 pX” ~ Beta(s 十 1,n 一 s 十 1), 这 看 
起 来 是 非常 合理 的 . 但 是 无 拘 无 束 地 使 用 扁平 先 验 会 产生 一 些 问题 . 

非 正常 先 验 令 X~ N(6,07), KF, o BA. 假设 选择 了 扁平 先 验 f(9) x c, 
这 里 ec > 0 为 常数 ”由 于 J f(9)d9 = 00, 所 以 从 通常 意义 上 讲 这 样 的 概率 密度 
不 存在 . 称 这 样 的 先 验 为 非 正常 先 验 ， 不 管 怎样 ， 仍然 可 以 使 用 贝 叶 斯 定理 , 通过 
把 先 验 和 似 然 函数 相 乘 来 计算 后 验 密度 : f(0) x Cn(9)f(9) x Lal). 这 可 以 得 到 
|X" ~ N(X,0?/n), 它 的 点 估计 和 区 间 估 计 与 频率 统计 中 的 结果 完全 一 致 . 只 要 得 
到 的 后 验 是 有 定义 的 概率 分 布 , 那么 非 正 常 先 验 就 不 是 问题 . 

扁平 先 验 不 是 不 变 的 “ 令 X ~ Bernoulli (p), 假设 使 用 扁平 先 验 f(p) = 工 这 
个 扁平 先 验 表示 在 实验 之 前 缺少 p 的 信息 . MES Y = log(p/(1 - p)), 这 是 对 了 的 
变形 , 可 以 计算 wv 的 分 布 , 也 就 是 


e 
fay = KETIA 


一 一 
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这 不 是 扁平 的 . 但 是 , 如 果 对 p 一 无 所 知 , 那么 就 对 少 一 无 所 知 , 就 会 对 V 使 用 扁平 
先 验 . 这 就 与 刚才 所 得 结果 矛盾 . 简 而 言 之 , 扁平 先 验 这 种 提 法 也 有 不 妥 之 处 , 因为 
一 个 参数 的 扁平 先 验 并 不 能 推出 该 参数 的 变换 也 有 扁平 先 验 ， 扁 平 先 验 并 不 是 变 
换 不 变 的 . 

Jeffreys 先 验 Jeffreys 提出 了 创造 先 验 的 规则 . 这 个 规则 是 , 取 


f(0) x 1(0)"?, 


其 中 , 1(0) 是 Fisher 信息 函数 . 这 个 规则 被 证 明 是 变换 不 变 的 . 有 很 多 例子 可 以 说 
明 这 个 先 验 是 有 用 的 , 但 是 在 这 里 就 不 详细 说 明了 . 
11.6 例 ”考虑 Bernoulli (p) 模型 . 回忆 


1 
1) = p(l =p)" 


Jeffreys 规则 说 先 验 可 以 用 
Fo) x VIO) = pa - p). 
这 是 Beta(1/2,1/2) 密度 . 这 与 均匀 分 布 密度 非常 接近 . 
在 多 参数 问题 中 , Jeffreys 先 验 定义 为 f0) x VITO, 这 里 |A 表示 矩阵 A 的 
行列 式 , 而 1(0) 是 Fisher 信息 矩阵 . 
11.7 多 参数 问题 
假设 9 = (091,… ,bp). 后 验 密度 仍然 由 下 式 给 出 : 
F(Olx") x Ln(0)f(0). (11.8) 


现在 的 问题 是 如 何 得 到 一 个 参数 的 推断 . 关键 是 求 出 感 兴趣 参数 的 边际 后 验 密度 . 
假设 , 希望 对 91 作 推断 , 它 的 边际 后 验 分 布 为 


FOl”) = ff re ,0plz")d02 .dp. (11.9) 
实际 上 , 这 个 积分 可 能 是 不 可 解 的 . 随机 模拟 对 此 有 些 帮助 . 从 后 验 中 随机 抽样 
6, +-+ ,08 ~ f(Olz"), 
其 中 , 上 标 表 示 不 同 的 抽样 . 每 个 0 是 向 量 (外,… , 02). 现在 搜集 每 次 抽样 的 第 一 


ATR, 
ol,- OP. 
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这 些 是 来 自 fle”) 的 一 个 样本 , 避免 了 作 任何 积 分 . 

11.7 例 (比较 两 个 二 项 分 布 ) ”假设 有 ma 个 控制 的 病人 , 有 na 个 治疗 的 病人 ， 
其 中 ，X 个 控制 的 病人 存活 数 , Xo 个 治疗 的 病人 存活 数 . 希望 检验 7 = g(p1,p2) = 
Pp2 一 pu, 则 

X1 ~ Binomial(nı, pı), X2 ~ Binomial(n2,p2). 

如 果 f(p1,p2) = 1, BRA 

f(P1, polzi, 72) « pI (1 — p1)™ 7 p3? (1 — po) 
由 于 pp 的 取 值 在 一 个 长 方形 区 域 (实际 上 是 正方 形 ), 所 以 
f(p1,p2lz1, 22) = f (pilz1)f (p2lz2), 


其 中 , f(pilz1) x p? (L - p) ™ = Al f (palz) x p3? (1 — pa) 这 意味 着 在 后 
验 分 布 中 , pi 和 po 是 独立 的 . 同时 plz1 ~ Beta(z1 +1,nı — sı +1) 和 polz2 ~ 
Beta(z2 + 1,n2 — z2 +1). 如 果 随 机 模拟 Pi,1,… , Pi,p ~ Beta(zl + 1,m — 21 +1) 
HI Paie ,Pp ~ Beta(za + 1, na — z2 +1), WA m = Pop —Pivb=1,---,B 是 
来 自 f(T|z1,z2) 的 样本 . 


11.8 贝 叶 斯 检验 


从 贝 叶 斯 观点 考虑 假设 检验 是 个 复杂 的 问题 . 这 里 只 是 给 出 主要 思想 的 概述 . 
贝 叶 斯 方法 的 检验 涉及 为 Ho 和 参数 O 一 个 先 验 , 然后 计算 P(Ho|X"). 考虑 0 是 尺 
度 参数 的 例子 , 检验 
Ho:0=0 对 Hl:0#00. 
使 用 先 验 P(Ho) = P(E) = 1/2 通常 是 合理 的 (尽管 这 对 接 下 来 的 并 不 重要 ). 
在 下 , 需要 一 个 9 的 先 验 . 用 S(O) 表示 先 验 密度 . 根据 贝 叶 斯 定理 ， 
f(z"|Ho)P(Ho) 
Fle" [Ho)P(Ho) + Fa" HDPE) 
_ 1/2f(2"|60) 
1/2F(@"|60) + 1/2f Can) 
_ f(2"160) 
FE) + J FE”) FC0)a0 
_ Co 
Lo) + J L(V FO)" 
大 家 都 知道 , 在 估计 问题 上 , 先 验 并 不 是 有 很 大 的 影响 , 频率 方法 和 贝 叶 斯 方法 给 
出 的 结果 类 似 . 在 假设 检验 中 就 不 是 这 样 了 . 同时 , 在 假设 检验 中 不 能 使 用 非 正常 先 


P(Ho|X” = 2") = 
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验 , 因为 这 会 导致 在 上 面 的 表达 式 的 分 母 中 有 无 定义 的 常数 . 因此 , 如 果 使 用 贝 叶 
斯 检验 , 必须 非常 小 心地 选择 先 验 f(6). 使 得 求 出 P(Ho|X" = z") 的 与 先 验 无 关 的 
界 成 为 可 能 . 由 于 0< LC(9)f(9)d9 < LÔ), 因此 
L(G) 
£L(00) + L) 


上 界 是 没有 意义 的 , 但 是 下 界 就 很 重要 了 . 


< P(Ho|X" = z”) <1. 


11.9 贝 叶 斯 推断 的 优点 和 缺点 


当先 验 信息 可 知 时 , 贝 叶 斯 推断 是 非常 有 吸引 力 的 , 因为 贝 叶 斯 定理 是 结合 
先 验 信息 和 数据 的 自然 方式 . 一 些 人 认为 贝 叶 斯 推断 从 心理 上 吸引 人 , 因为 它 允 
许 对 参数 用 概率 描述 . 相 比较 , 频率 推断 给 出 以 95% 的 概率 包含 参数 真实 值 的 置 
MAR, 但 不 能 说 P(O es Cn|Xn) 是 0.95. 在 频率 方法 中 , 可 以 对 Cn 用 概率 描述 , 但 
不 能 对 9 这 么 做 . 然而 , 心理 吸引 并 不 是 使 用 一 种 类 型 的 推断 而 不 用 另 一 种 的 强 
制 的 科学 理由 . 

在 大 样本 的 参数 模型 中 , 贝 叶 斯 方法 和 频率 方法 给 出 近似 相同 的 推断 . 一 般 来 
说 , 它们 不 需要 一 致 

有 3 个 例子 可 以 说 明 贝 叶 斯 推断 的 优点 和 缺点 . 第 1 个 例子 是 例 6.14. 这 个 例 
子 说 明了 贝 叶 斯 的 魅力 . 第 2 和 第 3 个 例子 说 明了 贝 叶 斯 方法 在 这 时 是 没有 用 的 . 

11.8 Bl ( 例 6.14 回顾 ) ”开始 回顾 这 个 例子 . + 9 表示 已 知 的 固定 实数 , 令 
X1, Xa 是 独立 随机 变量 ,满足 P(Xi = 1) = P(X; = -1) = 1/2. 现在 定义 Yi = 90+Xi， 
假设 只 是 能 观察 到 Yi, Yo. 令 


2 { “1-1, Yı = Ya, 
{4 +Y2)/2}, Yi # Ya. 


这 是 一 个 75% 的 置信 区 间 , 因为 , 不 管 9 取 什么 值 , Po(@ € C) = 3/4. 

假设 观察 到 Yı = 15, Y2 = 17. 那么 75% 的 置信 区 间 为 {16}. 然而 , 可 以 确定 ， 
在 这 个 例子 中 , 9 = 16. 所 以 把 这 称 为 是 75% 的 置信 区 间 让 很 多 人 费解 . 不 管 怎样 ， 
C 是 一 个 正确 的 75% 的 置信 区 间 . 它 有 75% 的 次 数 会 包含 参数 的 真实 值 . 

贝 叶 斯 结果 会 让 人 更 满意 些 . 为 简单 起 见 , 假设 9 为 一 个 整数 . 令 f(9) 是 先 验 
密度 函数 , 对 任意 9 满足 f(9) > 0. 4 Y = (Mi, Yo) = (15,17) 时 , 似 然 函 数 为 


11.9 TUPI A AAR IT 


由 贝 叶 斯 定理 , 得 
1, 0=16, 
0， 其 他 . 
因此 , P(9 € CIY = (15,17)) = 1. 说 {16} 是 75% 的 置信 区 间 没 有 任何 错 , 但 它 不 是 
对 9 的 概率 描述 . 

11.9 例 ”这 是 在 Robins 和 Ritov(1977) 中 的 一 个 例子 的 简化 版 本 . 数据 包含 
nn 个 独立 同 分 布 的 三 维 随机 变量 


(Xi, R, Yi), os (Xn, Rn, Yn). 


S B 表示 有 限 的 但 非常 大 的 数 , 如 B = 100. 任何 现实 样本 的 样本 基 n 都 比 B 


小 . 令 


P(O =0lY = (15,17)) = { 


0 = (01,.… ,08) 
是 未 知 参数 的 向 量 ,对 于 1< j < B 满 足 0<0;<1. 令 
E= (6 8) 


是 已 知 的 向 量 , 满足 
0<5<& <1-6<1, 1<j<B, 


其 中 , 6 是 某 个 较 小 的 正 数 . 每 个 点 (Xi, Ri, Yi) 是 用 下 面 的 方法 抽取 的 ， 

1. 均匀 地 从 {1,… B} 中 抽取 Xi. 

2. 抽取 Ri ~ Bernoulli(Ex,). 

3. 如 果 Ri = 1, 则 抽取 Y ~ Bernoulli(9x,). 如 果 Ri = 0, 不 抽取 Yi. 

这 个 模型 看 起 来 有 点 不 真实 , 但 是 , 实际 上 , 它 是 某 些 缺失 数据 问题 的 缩影 在 
这 类 问题 中 , 有 些 数据 观测 不 到 . 在 这 个 例子 中 , R = 0 认为 是 “缺失 ”了 的 数据 . 
目标 是 估计 


由 于 


B 
= PY; =1) = J PY; = 1X = j)P(X = j) 


j=l 


1 B 
= 5% =9()， 
j=l 


所 以 多 = g(0) 是 9 的 函数 . 
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首先 考虑 贝 叶 斯 分 析 . 单个 观测 的 似 然 函 数 为 
了 (CC Ri, Yi) = F(X) f (RlX)f Y:X)™. 


BATUR R 增长 . 如 果 Ri = 0, 那么 Yi 观测 不 到 , 因此 , 这 一 项 从 似 然 函 
数 中 删 去 . 由 于 f(Xi) = 1/B, Yi, Ri 服从 Bermoulli 分 布 , 所 以 


F(X)f (Ral Xa) FV) = Za — Ex) OEM (1 — 0x) POR. 
因此 , 似 然 函数 为 


LO) = [I F(X) (RIX) FX)™ 
i=1 


= JJ FERO - 6x) OG — 0x) Om 
i=1 
ox OFF (1 — Ox) OR 


把 所 有 关于 BA & 的 有 关 项 删 掉 , 因为 它们 是 已 知 常数 , 不 是 参数 . 对 数 似 然 函 数 
为 


4(0) = DYiRilogOx, + (1 — Yi)Rilog(1 — 6x,) 


i=l 

B B 

= So nj log 4; + D> m; log(1 — 45), 
i=l 


a 
其 中 ， 
ny = Hi: %=1,R =1,X =j} 
mj = Hi: Yı =0, R; =1, X; = 3}. 


现在 , 由 于 B 远 远大 于 n, 所 以 对 于 绝 大 多 数 的 j, 有 nj = mj = 0. 有 几 个 含义 : 
首先 , 绝 大 多 数 的 b 的 极 大 似 然 估计 没有 定义 . 其 次 , 对 绝 大 多 数 的 9;, 后 验 分 
布 等 于 先 验 分 布 , 因为 那些 b 没有 在 似 然 函 数 中 出 现 . 因此 , f(6| 数 据 ) ~ (9). 所 
以 , fw 数据 ) = fv). 换 句 话说 , 在 贝 叶 斯 分 析 中 , 数据 几乎 没有 提供 关于 少 的 
任何 信息 . 

现在 来 考虑 频率 方法 . 定义 


六 RN. (11.10) 
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下 面 将 证 明 这 个 估计 是 最 小 均 方 误差 无 偏 估计 . 可 以 证 明 ( 见 11.12 习题 7)， 
E@)=¥, VW) < a+ (11.11) 


因此 , 均 方 误差 MSE 以 1/n 为 系数 , RH BALK, 当 搜集 更 多 的 数据 时 , MSE 将 
会 很 快 收敛 于 0. (11.10) 中 定义 的 估计 称 为 Horwitz-Thompson 估计 . 它 不 能 从 贝 
叶 斯 或 似 然 函数 的 观点 得 到 , 因为 它 涉及 Ex, 项 . 这 些 项 在 对 数 似 然 函数 中 删 掉 了 ， 
因此 不 会 在 任何 包括 贝 叶 斯 估计 在 内 的 基于 似 然 函数 的 方法 中 出 现 . 

11.10 例 “假设 f 是 概率 密度 函数 , 且 


其 中 , g(z) > 0 是 已 知 函数 , c 未 知 . 原则 上 , 可 以 计算 出 c 因为 | f(z)dz = 1, 隐 仿 
着 c= 1/ Jg(z)dz. 但 是 在 许多 例子 中 , 并 不 能 做 积分 Jog(z)dz, 这 是 因为 9 可 能 是 
复杂 函数 , > 可 能 是 高 维 的 . 尽管 是 未 知 的 , 常常 可 以 从 了 中 抽取 样本 X1,… Xn, 
见 第 24 章 . 可 以 用 这 个 样本 去 估计 归 一 化 系数 c 吗 ? 下 面 是 频率 方法 的 解决 方式 : 
Ay Fala) 是 密度 的 相 容 估计 . 第 20 章 解释 了 如 何 构造 这 样 的 区 间 . 选择 任意 点 
a, HF c= f(z)/g(z), 因此 6= fz)/g(z) 是 c 的 相 容 估计 . 现在 来 尝试 用 贝 叶 斯 
方法 解 这 个 问题 . 令 r(c) 是 先 验 , 使 得 对 于 c > 0 有 rle) > 0. 似 然 函数 为 


Lalo) = J14 = [Jex = e [] 9%) «oe, 
i=l i=l i=l 

EJERS om (c) 成 比例 . 后 验 并 不 取决 于 Xi, ,Xn 所 以 根据 贝 叶 斯 的 观点 得 

到 一 个 惊人 的 结论 , 数据 中 没有 任何 的 信息 关于 c. 而 且 , 后 验 均值 为 


oo 
f cn+lxr(cjdc 
= s 
f c”n(c)de 
0 


当 增加 时 , 它 可 能 趋 于 无 穷 大 . 

最 后 两 个 例子 说 明了 重要 的 一 点 . 贝 叶 斯 依赖 于 似 然 函 数 . 当 似 然 函数 出 差错 
的 时 候 , 贝 叶 斯 推断 也 会 犯错 误 . 

以 上 分 析 能 做 出 什么 样 的 结论 呢 ? 重要 的 是 理解 频率 方法 和 贝 叶 斯 方法 给 不 
同 的 问题 提出 了 答案 . 为 了 把 先 验 和 数据 有 原则 的 结合 起 来 , 就 使 用 贝 叶 斯 推断 . 为 
了 构建 能 保证 长 远 性 能 的 过 程 , 如 置信 区 间 , 使 用 频率 方法 . 一 般 来 说 , 当 参 数 空间 
是 高 维 时 , 贝 叶 斯 方法 会 遇 到 问题 . 特别 是 , 95% 的 后 验 区 间 不 需要 以 95% 的 概率 
包含 真实 值 (从 频率 统计 的 角度 )- 
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11.10 文献 注释 


员 叶 斯 推断 的 参考 书包 括 (Carlin and Louis, 1996; Gelman et al., 1995; Lee, 
1997; Robert, 1994; Schervish, 1995). 对 于 非 参 贝 叶 斯 推断 的 技巧 , 见 (Cox, 1993; 
Diaconis and Freedman, 1999; Barron et al., 1999; Ghosal et al., 2000; Shen and 
Wasserman, 2001; Zhao, 2000). Robins-Ritov 例子 在 (Robins-Ritov, 1997) 中 详细 讨 
论 , 那里 它 更 确切 地 被 作为 非 参 问题 讨论 . 例 11.10 来 自 Edward George( 个 人 通讯 ). 
关于 贝 叶 斯 检验 参考 (Berger and Delampady, 1987; Kass and Raftery, 1995). 对 于 
无 信息 先 验 , 见 (Kass and Wasserman, 1996). 


11.11 附 录 


定理 11.5 的 证 明 ”可 以 证 明 , 随 着 的 增加 , 先 验 的 效果 降低 了 , 所 以 (0|X”") 
x Ln(0)f(0) ~ Ln(9)， 因 此 , log f(0|X") ~ 40). HF L = 0, 所 以 LO) = 
£8) + (0 -AUO + (0 -D/O = L + ((0 — 0)? /2]e"(6). 用 短 指 数 表示 , 近似 


得 到 
_AMN2 
rox « on { 5° 7 } 


on 


其 中 , 02 = -1/0 ®), 所 以 9 的 后 验 近似 服从 均值 为 方差 为 03 的 渐 近 正 态 分 布 . 
令 4 = log f(Xi|9), W 


= -四 = 于 -4 
= nÈ) YD -e 0n) ~ Eol- Gn) 


= nI (ôn). 


因此 , on ~ se(9). 


11.12 J 题 


1. 证 明 (11.7). 
2. & X1,- , Xn ~ Normal(y, 1). 
(a) A u = 5 随机 模拟 一 个 有 n= 100 个 观测 的 数据 集 . 
(b) 以 f(u) = 1 为 先 验 , 求 出 后 验 密度 . 画 出 密度 函数 的 图 . 
(c) 根据 后 验 随机 抽取 1000 个 样本 观察 值 . 画 出 这 些 随机 模拟 值 的 直方 图 : 把 这 
个 直方 图 和 (b) 中 的 答案 作 比 较 . 
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(d) 令 9 = er. 通过 分 析 和 随机 模拟 的 方式 求 出 9 的 后 验 密度 函数 . 

(e) 求 出 u BY 95% 的 后 验 区 间 . 

(£) 求 出 9 的 95% 的 置信 区 间 . 
3. $ Xi, , Xn ~ Uniform(0,0). 令 f(0) x 1/0. 求 出 后 验 密度 . 
假设 有 50 人 服用 安慰 剂 有 50 人 接受 新 的 治疗 方法 . 有 30 个 服用 安慰 剂 的 病 
人 病情 好 转 , 而 40 个 接受 新 的 治疗 方法 的 病人 病情 好 转 . 令 7 = ps — p 这 里 
po 是 在 新 的 治疗 方式 下 病情 好 转 的 概率 , pl 是 服用 安慰 剂 而 病情 好 转 的 概率 . 
(a) 求 出 r 的 极 大 似 然 估 计 . 用 Delta 方法 求 出 标准 差 和 90% 的 置信 区 间 . 
(b) 用 Bootstrap 方法 求 出 标准 差 和 90% 的 置信 区 间 . 
(c) 用 f(p1,p2) = 1 作为 先 验 . 用 随机 模拟 的 方法 求 出 后 验 均值 和 r 的 90% 的 


e 


后 验 区 间 . 
(a) & 
2 P ._P 
votes (5 Sj ; a) 
是 对 数 优势 比 . 由 于 当 pi = po YA Y = 0. RH y HRK. 用 Delta 
HERH Y ky 90% 的 置信 区 间 . 


(e) 用 随机 模拟 求 出 后 验 均值 和 的 90% 的 后 验 区 间 . 
5. 考虑 下 面 的 Bernoulli(p) 观测 : 


0，1，0，1，0，0，0，0，0，0. 


用 下 面 的 先 验 画 出 p 的 后 验 : Beta (1/2, 1/2),Beta(1, 1),Beta(10, 10),Beta(100, 100). 


6. 令 Xi,- , Xn ~ Poisson(A). 
(a) 令 入 ~ Gamma (a, 6) EER. 证 明 后 验 仍然 是 Gamma 分 布 . 求 出 后 验 均 
值 . 
(b) 求 出 Jeffreys 先 验 , 求 出 后 验 . 
. 在 例 11.9 中 , 证 明 (11.11). 
8. $ X ~ N(p,1). 考虑 检验 


$ 


Ho:p=0 对 Hi: #0, 


取 P(Ho) = P(H1) = 1/2. SÆ Hi F u 的 先 验 为 u~ N(0,b?). RERE 
R P(Ho|X = x), 把 它 和 Wald 检验 的 p 值 相 比较 . 在 更 多 的 z LAN b 值 的 条 
件 下 作 比 较 . 现在 用 样本 其 为 n 的 样本 重复 这 个 问题 会 看 到 , 即使 p 值 很 小 , 
Ho 的 后 验 概率 也 可 以 很 大 , 特别 是 当 n 很 大 时 . 贝 叶 斯 和 频率 检验 不 一 致 称 为 
Jeffreys-Lindley 悖 论 . 


第 12 章 ”统计 决策 理论 


12.1 引 È 


前 面 已 经 考虑 了 几 种 点 估计 , 如 极 大 似 然 估计 、 矩 估计 和 后 验 均值 . 事实 上 , 还 
有 许多 其 他 的 估计 方法 . 如 何 选择 它们 呢 ? 答案 在 决策 理论 中 找 , 它 是 比较 统计 过 
程 的 正规 理论 . 

考虑 参数 空间 O 中 的 参数 9. 令 6 是 9 的 估计 . 在 决策 理论 的 语言 中 , 点 估计 
有 时 称 为 决策 规则 , 决策 规则 可 能 的 值 称 为 行动 . 

用 损失 函数 L(0,0) 来 度量 9 和 8 的 离散 程度 . 正式 地 , 工 把 9 x O 映射 到 R. 
下 面 列 出 了 一 些 损失 函数 ， 


L(6,0) = (6 — 6)? 平方 损失 ， 

L(6,6) = |0 — ô 绝对 损失 ， 

L(0,0) = |0 - OP Lp 损失 ， 

4 O=O8, L,8)=0, 4OAOmtwH1 01 损失 ， 

1(0,0) = flog (£22) f(z;0)dz Kullback-Leibler 损失 . 
f(z;0) 


记 住 估计 6 是 数据 的 函数 . 为 了 强调 这 一 点 , 有 时 把 人 记 为 X). 为 了 衡量 一 
个 估计 , 用 平均 风险 或 损失 来 估计 . 


12.1 定义 ”估计 9 的 风险 为 
R(0,0) = Ee(L(0,0)) = if 1 (6, 6(z)) f(x; 8)dz. 


当 损 失 函 数 为 平方 误差 时 , 风险 是 均 方 误差 MSE: 
R(6,0) = Ee(0 — 6)? = MSE = Vo + bias3(6). 
本 章 后 面部 分 , 如 果 不 专门 说 明 用 了 哪 种 损失 函数 , 就 假定 使 用 的 是 平方 损失 
函数 . 
12.2 ”比较 风险 函数 


为 比较 两 个 估计 , 来 比较 它们 的 风险 函数 . 然而 , 这 并 不 能 提供 一 个 明确 的 答 
案 说 哪 一 个 估计 更 好 . 考虑 下 面 的 例子 . 
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12.2 Gl 4X ~ N(0,1), 假设 使 用 平方 损失 函数 . 考虑 两 个 估计 A = x 和 
Oo = 3. 风险 函数 为 R(9, 抽 ) = Eo(X — 0)? = 1 和 R(0,02) = Eo(3 — 8)? = (3 一 9)2. 
如 果 2 <0 <4, 则 R(0,62) < R(6, 负 ), 否则 , R(0, 负 ) < RO, Os). 没有 哪 一 个 估计 一 
定 比 另 一 个 好 , 见 图 12.1. 


RO.8:) 
1 ROO) 


0 1 2 3 4 5 


图 12.1 比较 两 个 风险 函数 
没有 一 个 风险 函数 对 所 有 的 6 值 都 比 另 一 个 更 具 优势 


12.3 例 & Xi,- ,Xn ~ Bernoulli (p). 考虑 平方 损失 函数 , > M =X. 由 于 
这 是 无 偏 的 , 就 有 
Rp, fr) = VOR) = PED, 
另 一 个 估计 为 
Y+a 
at+B+n’ 


h= 
其 中 ,Y = x ab 为 正常 数 . 这 是 使 用 先 验 Beta (a, 6) 的 后 验 均值 . ME, 
i=1 


R(P,B2) = Vp(B2) + (biasp(P2))? 


= Vo (FS) + (ES) -7) 


np(1 —p) ez -») 


~ (a+ Btn)?" \at+Ben 
S a=B=/n/4 (在 例 12.12 F, 会 解释 这 样 选择 的 理由 ) 得 到 估计 为 
Y + vajā 


Pa n+yn ’ 
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风险 函数 为 
~ n 
POP a TP 


风险 函数 在 图 12.2 中 画 出 . 正如 所 看 到 的 , 没有 哪 一 个 估计 一 致 的 比 另 一 个 好 . 


图 12.2 例 12.3 pi Al Pa 的 风险 函数 
实 线 是 Ri) ,点 线 为 R2) 


这 些 例子 说 明了 风险 函数 需要 比较 的 要 求 . 为 此 , 需要 用 一 个 数 来 描述 这 个 风 
险 函数 . 最 大 风险 和 贝 叶 斯 风险 就 是 采用 这 种 形式 定义 的 . 


12.4 定义 ”最 大 风险 为 


Rô) = sup R(O,D). (12.1) 


贝 叶 斯 风险 为 
r(f,6) = J R06, O)f(0)do, (12.2) 


其 中 , f(0) XO HAW. 


12.5 例 再 次 考虑 例 12.3 中 的 两 个 估计 . 得 出 


Fis.) — p(l—p)_ 1 
R(Pi) = max, n 4n 


和 


R) = max —" = l. 

p 4(n+ Jn)? 4(n+ Jn)? 
因为 R) < RO), 根据 最 大 风险 , Po 是 更 好 的 估计 . 然而 , 当 n 很 大 时 , 除了 在 接 
近 p = 1/2 的 参数 空间 对 应 的 小 区 域内 , RPL) 的 风险 要 比 (Pe) 小 . 因此 , 许多 人 
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宁愿 选择 信 而 不 是 f 这 说 明了 像 最 大 风险 这 种 单个 数 对 风险 函数 的 描述 并 不 是 
完美 的 . 现在 考虑 贝 叶 斯 风险 . 为 了 说 明 , $ fP) = 1, 则 
rit) = | RP)dp= [EPa = 去, 


并 且 
rit) = | Robe = Tt 


对 于 n> 20, 有 r(f, P2) > r(f.Pi), 这 表明 了 a 是 一 个 比较 好 的 估计 . 从 直觉 上 看 
比较 合理 , 但 是 这 个 答案 取决 于 先 验 的 选择 . 尽管 最 大 风险 也 有 不 足 , 但 它 的 优点 
是 不 需要 选择 先 验 . 

这 两 种 风险 函数 的 描述 表明 了 设计 估计 的 两 种 不 同方 法 : 选择 使 最 大 风险 最 
小 的 8 得 到 最 小 最 大 估计 ; 选择 使 贝 叶 斯 风险 最 小 的 全 得到 贝 叶 斯 估计 . 


12.6 定义 ”使 贝 叶 斯 风险 最 小 的 决策 规则 称 为 贝 叶 斯 规则 正式 地 讲 ， 如 果 满 
足下 面 的 等 式 , 那么 日 就 是 根据 先 验 得 到 的 贝 叶 斯 规则 . 


r(f,0) = infr(f, 9), (12.3) 


其 中 , 最 小 是 在 所 有 估计 6 中 最 小 . 使 得 最 大 风险 最 小 的 估计 称 为 最 小 最 大 规 
则 . 正式 地 讲 , 如 果 满 足下 面 的 等 式 , 那么 日 就 是 最 小 最 大 规则 ， 


sup R(0, 0) = inf sup R(0, 0), (12.4) 
0 0 9 


其 中 , 最 小 是 在 所 有 估计 6 中 最 小 . 


12.3 贝 叶 斯 估计 


令 了 是 一 先 验 . 根据 贝 叶 斯 定理 , 后 验 密度 为 

EIDE -fclo)7(O) 

* m(z) J fcl6)7(6)d9” 
其 中 , m(z) = S f(z,0)d9 = [f(z|9)f(9)d9 是 X 的 边际 分 布 . 定义 估计 e) 的 后 
验 风 险 为 


f(0lz) = (12.5) 


rôz) = J L(0, Oz))f (Olz)d0. (12.6) 
12.7 定理 贝 叶 斯 风险 r(f, 四 满足 
r(f,8) = Í (Blz)m(z)dz. 
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A Ox) 是 使 得 T(z) 最 小 的 9 值 , 则 6 是 贝 叶 斯 估计 . 
证 明 可 以 把 贝 叶 斯 风险 改写 为 


ru.) = f Re Drow = J (fre, Ba)fteloaz] (dg 
= J J L(0,0(2)) f(z, 8)dzdð = J J L(0, Oz))f(0lz)m(z)dzdo 
三 J ( / 1(0,0(2)) {(6\2)20) m(z)dz = J 7( 人 jz)mtzjdz. 


如 果 选 择 多 z) 为 使 得 (lz) 最 小 的 o 值 , 那么 就 能 使 被 积 函数 在 每 一 个 z 都 最 小 ， 
因此 使 得 积分 r(8lz)m(zjdz 最 小 . 

对 于 某 些 特定 的 损失 函数 , 现在 可 以 找 出 具体 的 贝 叶 斯 估计 公式 . 

12.8 定理 ”如 果 L(0,0) = (9 一 国 ?,， 则 贝 叶 斯 估计 为 


õa) = J bf(glz)dg = E(0|X = 2). (12.7) 


如 果 L(0,0) = |0— 4], 则 贝 叶 斯 估计 为 后 验 Fle) 的 中 位 数 . 如 果 10,0) 是 0-1 4 
A, 贝 叶 斯 估计 为 后 验 fOr) 的 众 数 . 

证 明 下 面 将 证 明 这 个 定理 中 损失 函数 为 平方 损失 的 情况 ， 贝 叶 斯 规则 a) 
使 得 r(Blz) = (9 一 A(z))?f(0lz)d9 最 小 . 对 rÂ) 关于 O(a) RF, 并 让 它 等 于 0, 
得 到 2 f (0 一 A(z))f(0lz)d9 = 0. 解 方程 得 到 (12.7). 

12.9 例 S Xr, Xn ~ N(u,07). 这 里 o? BA A N (a,b?) 作为 4 的 
先 验 . 根据 平方 损失 的 贝 叶 斯 估计 为 后 验 均值, 即 

P an 2 
NX1, Xn) = aan + eat 


12.4 最 小 最 大 规则 


求 最 小 最 大 规则 比较 复杂 , 在 这 里 并 不 能 全 面 讲述 这 一 理论 , 但 会 提 到 几 个 
关键 结果 . 这 一 节 传 达 的 主要 信息 就 是 : 常数 风险 函数 的 贝 叶 斯 估计 是 最 小 最 大 
估计 . 

12.10 定理 令 Of 是 菜 一 先 验 三 的 贝 叶 斯 规则 ， 


"(fF) = inf r(f,8)- (12.8) 


假设 对 所 有 的 9, 有 
R(f,0) < r(f,07), (12.9) 
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则 OF 是 最 小 最 大 估计 , f 称 为 最 不 利 先 验 . 

证 明 ”假设 OY 不 是 最 小 最 大 的 , 则 存在 其 他 的 一 个 规则 o 使 得 sup R(O, bo) < 
sup R(f, 0S). 由 于 函数 的 均值 总 是 小 于 等 于 它 的 最 大 值 , 有 rl) < sup R(O, G0). 
因此 ， 

r(f,60) < sup RO, o) < sup RCS, HW) < (f, 0), 


这 和 (12.8) 矛盾 . 


12.11 定理 假设 是 基于 先 验 三 的 贝 叶 斯 估计 . 进一步 假设 I 的 风险 为 常数 
c: R(O,0) =c, 则 日 是 最 小 最 大 的 . 


证 明 ” 贝 叶 斯 风险 为 -(f, 办 = f R(0,0)f(0)d0 = c, 因 此 ,对 所 有 的 0, RO, 8) < 
(0,0). 再 应 用 (12.10) 可 得 结论 . 

12.12 例 “考虑 损失 函数 为 平方 损失 的 Bernoulli 模型 . 在 例 12.3 H, 已 经 证 
明了 估计 


x+ vajā 


p(X") = ar ee, 


的 风险 函数 为 一 常数 ， 这 个 估计 是 后 验 均值 , 因此 , 对 于 a = 6 = Vn/4 的 Beta 
(a,b) 先 验 , 它 也 是 贝 叶 斯 估计 . 因此 , 由 前 面 的 定理 , 这 个 估计 是 最 小 最 大 的 . 
12.13 例 ”再 次 考虑 Bernoulli 模型 , 但 是 它 的 损失 函数 为 


10,9) = B= 
过 
ox 
ax") =p= St. 
风险 为 


_p[e-®\__1 p(-p) _ 1 
Rep.) -= (和 *) pl) n on’ 
这 里 , 它 作为 p 的 函数 , 是 一 个 常数 . 可 以 证 明 , 对 于 这 个 损失 函数 , AX) 是 在 先 
验 flp) = 1 下 的 贝 叶 斯 估计 . 因此 , 玉 是 最 小 最 大 的 . 
很 自然 地 会 想到 一 个 问题 : 什么 是 正 态 模型 的 最 小 最 大 估计 ? 
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12.14 定理 AXi, Xn ~ N(0,1), LA Ô =X, N| Ô A ATEEN R YH 
失 函 数 的 最 小 最 大 规则 ?. 它 是 具有 这 种 性 质 的 唯一 估计 . 

如 果 参 数 空间 是 有 限制 的 , 则 上 面 的 定理 不 适用 , 正如 下 面 的 例子 说 明 的 . 

12.15 例 üt X ~ N(0,1), HER 6 在 区 间 [—m, m] H, 其 中 , 0 < mm <1. 
在 平方 损失 函数 下 , 唯一 的 最 小 最 大 估计 为 


6(X) = mtanh(mX). 


其 中 , tanh(z) = (e? — e~*)/(e* +e77). 可 以 证 明 , 这 是 在 m 和 -m 的 概率 分 别 为 
1/2 为 先 验 条 件 下 的 贝 叶 斯 估计 . 而 且 可 以 证 明 这 个 风险 不 是 常数 , 但 对 于 所 有 0, 
EWE R(b,8) <r(f,0). 见 图 12.3. 因此 , 由 定理 12.10 可 知 8 是 最 小 最 大 的 . 


o 


-0.5 0 0.5 


图 12.3 有 限制 的 正 态 分 布 的 风险 函数 , m = 0.5 
两 条 短 虚 线 表示 最 不 利 先 验 , 它 把 权重 集中 在 这 两 个 点 上 


12.5 极 大 似 然 、 最 小 最 大 和 贝 叶 斯 


对 于 满足 弱 正 则 性 条 件 的 参数 模型 , 极 大 似 然 估 计 近 似 最 小 最 大 估计 . 考虑 平 
方 损失 函数 , 它 是 偏差 的 平方 加 上 方差 . 在 大 样本 的 参数 模型 中 , 可 以 证 明 方差 项 
远 远 大 于 偏差 项 , 所 有 极 大 似 然 估 计 9 约 等 于 方差 ? 


R(6,6) = Vo(6) + bias? ~ Vo. 
正如 在 第 9 章 看 到 的 , 极 大 似 然 估 计 的 方差 近似 为 


a 1 
vO ~ Ty 

O “优良 的 " 是 指 水 平 集 必须 关于 原点 凸 的 和 对 称 的 . 这 个 结果 精确 到 零 测 集 的 , 即 在 0 测度 集 上 结论 
不 必 成 立 . 

© 偏差 的 平方 通常 是 On?) 阶 的 , MATA On) 阶 的 . 
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其 中 , 1(0) 是 Fisher 信息 量 . 因此 ， 


nR(6,0) ~ (12.10) 


TO 
对 于 任意 其 他 估计 b, 可 以 证 明 对 于 足够 大 的 w 有 R(0,9) > R(O,0). 更 精确 地 ， 


lim lim sup sup "RO, ð > —— 


im limsup s w (12.11) 


这 说 明 在 局 部 大 样本 的 情况 下 , 极 大 似 然 MLE 是 最 小 最 大 的 . 可 以 证 明 MLE 近似 
是 贝 叶 斯 规则 . 
总 之 , 在 绝 大 多 数 大 样本 参数 模型 中 , MLE 是 近似 最 小 最 大 的 和 贝 叶 斯 规则 . 
有 一 个 值得 注意 的 地 方 , 当 参 数 很 多 时 这 些 结果 不 成 立 , 如 下 面 的 例子 所 示 . 
12.16 例 (SESH) Yi ~ N(b0?/n),i=1,: @Y = (Yi, ,Yn) 
表示 数据 , 令 0 = (01,… On) 表示 未 知 参数 . 假设 对 某 个 c > 0, 有 


0 € On = {0 = (bn, 10): 28 < 2}. 
i=l 


在 这 个 模型 中 , 有 和 观测 数据 一 样 多 的 参数 ” 极 大 似 然 估计 为 了 =Y = (Yi,… Ya) 
在 损失 函数 为 5(p, 司 = FÔ - 6)? 的 情况 下 , 极 大 似 然 的 风险 为 ROO, 8) = 0. 可 


i=1 
以 证 明 最 小 最 大 风险 近似 为 /cz + 07), 可 以 找到 一 个 估计 6 达到 这 个 风险 . 由 于 
co2/(c +02) < 0?, 可 以 看 出 6 的 风险 比 MLE 的 小 . 在 实际 中 , 风险 的 差距 可 能 会 
很 大 . 这 表明 了 在 高 维 问题 中 , 极 大 似 然 估 计 不 是 最 优 估计 . 


12.6 容 许 性 


从 风险 小 的 意义 上 讲 , 最 小 最 大 估计 和 贝 叶 斯 估计 是 “好 估计 ”. 而 刻画 坏 估 
计 的 特征 也 会 很 有 用 . 


12.17 定义 “对 于 一 个 估计 0, 如 果 存 在 另 一 个 规则 8 使 得 


Re,B) < RO,0), 对 所 有 9 并 且 
R(0,®)<R(0,0), 对 至 少 一 个 9， 


则 称 为 不 容许 的 . 否则 , O 是 容许 的 . 


O 多 正 态 均值 问题 很 常见 . 许多 非 参数 估计 问题 从 数学 上 等 价 于 这 个 模型 . 
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12.18 例 $ X ~ N(9,1), 用 平方 损失 函数 考虑 9 的 估计 . 令 OX) = 3. 将 
证 明 8 是 容许 的 . 假设 它 不 容许 , 则 存在 另 一 个 风险 较 小 的 不 同 规则 全， 特别 地 ， 
R(3,6’) < R(3,9). 因此 , 0 = R(3, 6’) = AE z) 一 3)?f(z; 3)dz. 因此 ， F(z) =3. 所 
以 , 没有 其 他 规则 优 于 人 即 6 是 容许 的 , 但 它 显然 是 一 个 不 好 的 规则 . 

12.19 定理 ( 贝 叶 斯 规则 是 容许 的 ) ”假设 OCR, 对 每 一 个 全 R(0, 四 是 9 的 连 
HM. 令 是 满 支撑 的 先 验 密度 ， 即 对 每 个 0 和 每 个 e > 0, 都 有 J9 (0)d9 >0. 
AO 是 贝 叶 斯 规则 , 如 果 贝 叶 斯 风险 是 有 限 的 , NO 是 容许 的 . 

证 明 ”假设 OS 是 不 容许 . 则 存在 另 一 个 更 好 的 规则 6 是 使 得 对 于 所 有 9 有 
R(0,0) < R(O,0!), 对 于 某 个 o 有 (60,4) < R(80, 64). 4 v = R(00,07) — R(Bo, ô). 
由 于 已 是 连续 的 , 存在 e > 0, 对 于 所 有 0 E (bo —€,00 + €), 使 得 R(O, 67) — R(, 6) > 
v/2. 然而 


r(f,6) —r(f,8) = /a (0,61) f(0)0 — J R(0, 0)f(0)a0 
= Je- Ro, DIr 


Bote Be 可 
> [120,07 ~ RODISO) 
Qo—e 
lo+e 
> [ _ f(0)do 
> 0. 


因此 , r(f,00) > r(f,0). 这 表明 了 OF 并 没有 使 得 r(A) 最 小 , 这 和 OF 是 贝 叶 斯 规 
则 相 矛 盾 . 

12.20 È A X1,… ,Xn ~ N(u,07). 在 平方 损失 情况 下 , X 是 容许 的 . 

最 后 一 个 定理 的 证 明 是 需要 相当 的 技巧 的 , 在 这 里 省 略 , 但 它 的 主要 思想 如 下 : 
对 于 任何 严格 的 正 先 验 , 后 验 均值 是 容许 的 . PERA N (a,b). 当 0? 非常 大 时 , 后 
验 均值 近似 等 于 X. 

最 小 最 大 规则 和 容许 性 怎么 联系 呢 ? 一 般 来 说 ， 一 个 规则 可 能 是 其 中 一 个 或 
两 个 , 或 一 个 都 不 是 . 下 面 的 事例 说 明了 容许 性 和 最 小 最 大 性 有 一 定 的 联系 . 

12.21 定理 假设 人 是 容许 的 , 风险 为 一 个 常数 , 则 它 是 最 小 最 大 的 . 

证 明 HFRS c, 风险 R(b,D) = c. 如 果 8 不 是 最 小 最 大 的 , 则 存在 一 个 规则 
人 使 得 

R(0,0) < sup RO, 0)< sup R(O, d= 

这 意味 着 6 是 不 容许 的 , 这 与 已 知 矛盾 . 

现在 给 出 定理 12.14 的 严格 证 明 , 考虑 损失 函数 仍然 为 平方 损失 . 

12.22 FB A X1,… ,Xn ~ N(b,1)， 则 在 损失 函数 为 平方 损失 情况 下 ,8 一 
下 是 最 小 最 大 的 . 
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证 明 ”根据 定理 12.20, 6 是 容许 的 . 6 的 风险 为 1/m, 这 是 一 个 常数 . 根据 定理 
12.21 结论 得 证 . 

尽管 最 小 最 大 规则 不 能 保证 容许 性 , 但 是 它们 是 “非常 接近 容许 的 ”. 如 果 存 
在 一 个 规则 全 和。 > 0 使 得 对 所 有 0, 满足 RO, 0) < R(0,0) — e, 则 称 8 是 强 不 容 
许 的 . 

12.23 定理 ”如 果 日 是 最 小 最 大 的 , 则 它 不 是 强 不 容许 的 


12.7 Stein 悖 论 


假设 X ~ N(9,1), 用 损失 函数 为 平方 损失 来 考虑 9 的 估计 . 由 上 节 的 讨论 可 
DAI, OX) = X 是 容许 的 . 下 面 考虑 两 个 不 相关 的 量 9 = (61,02) 的 估计 . 假 


BX, ~ N(01,1) 和 Xo ~ N(02,1), 损失 函数 为 L(0,0) = be - 6). 不 足 为 


奇 , O(X) = X 又 是 容许 的 , 这 里 X = (Xi, X2). 现在 考虑 更 一般 的 情况 k ^E 
态 均 值 ， 令 0 = (1, ses On), X = (Xr Xr) 和 Xi ~ Nbi1)( 独 立 的 )， 损失 


函数 为 L(0,0) = be —6))?. Stein 证 明了 当 > 3 时 OX) = X 是 不 容许 
的 ， 这 个 结果 震 依 了 每 个 人 T 可 以 证 明 James-Stein 的 估计 OF 的 风险 比较 小 , 其 中 ， 


65 = (68,--- 8), 7 
68 (x) = | 2 | xX, (12.12) 


其 中 , (z)+ = max{z,0}. 这 个 估计 把 Xi 缩 到 0. 这 个 信息 是 说 当 估计 许多 参数 时 ， 
压缩 估计 有 很 大 的 价值 . 在 现代 非 参 函数 估计 中 , 观测 起 了 非常 重要 的 作用 . 


12.8 文献 注释 


决策 理论 的 讨论 可 以 见 文献 (Casella and Berger, 2002; Berger, 1985; Ferguson, 
1967; Lehmann and Casella, 1998). 


12.9 J 题 


1. 对 下 面 每 个 模型 , 用 平方 损失 函数 , 求 出 贝 叶 斯 风险 和 贝 叶 斯 估计 
(a) X ~ Binomial(n,p),p ~ Beta (a, 8). 
(b) X ~Poisson(A), A ~Gamma(a, 8). 
(c) X ~ N(6,0?), 其 中 , o? 已 知 , 9 ~ N(a,b?). 
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2. $ Xi,- ,Xn ~ N(0,0?), 假设 损失 函数 为 5(b,8)2/c2, 估计 0. 证明 X 是 容许 
的 和 最 小 最 大 的 . 

3. 令 9 = {01,… ,9k} 是 有 限 维 参数 空间 . 证 明 后 验 均 众 数 是 在 0-1 损失 函数 下 的 

贝 叶 斯 估计 . 

(Casella and Berger, 2002) 4 Xi,… ,Xn 是 从 方差 为 o? 的 分 布 中 抽取 的 样本 . 

考虑 形式 为 b5? 的 估计 , 这 里 S 是 样本 方差 . 令 估计 o? 的 损失 函数 为 


= p 
L(0?,3?) = a EE log. (5) f 


e 


找 出 对 所 有 o? 都 使 得 风险 最 小 的 最 优 b 值 . 
. (Berliner, 1983) 4 X ~ Binomial(n,p), 假设 损失 函数 为 


an 


Lp) = 0-2)". 


这 里 0 <p < 1. 考虑 估计 AX) = 0. 这 个 估计 落 到 参数 空间 (0,1) 之 外 , 但 允许 
这 样 . 证 明 P(X) = 0 是 唯一 的 最 小 最 大 规则 . 

(计算 机 试验 ) 用 随机 模拟 的 方法 比较 极 大 似 然 估计 和 James-Stein 估计 . 尝试 
用 不 同 的 n 值 和 不 同 的 9. 总 结 所 得 到 的 结果 . 


S 


#138 ”线性 回归 和 Logistic 回归 
回归 是 研究 响应 变量 Y 和 协 变量 X 关系 的 方法 . 协 变量 也 称 为 预测 变量 或 特 
征 *. 总 结 X ALY 的 关系 的 一 种 方法 是 通过 回归 函数 
ra) =EYIX =2) = f vf(vla)dv. a31) 


目标 是 用 形 如 
(Yi, X1), , (Yn, Xn) ~ Fry 


的 数据 估计 回归 函数 >(z). 
本 章 采 用 参数 方法 , 假设 7 是 线性 的 . 在 第 20 章 和 第 21 章 中 , 将 讨论 非 参 数 回 
归 . 


13.1 简单 线性 回归 
最 简单 的 回归 是 Xi 是 简单 的 (一 维 的 ) 并 且 假 设 r(x) 为 线性 的 ， 
r(x) = Bo + fiz. 


这 个 模型 称 为 简单 线性 回归 模型 . 做 进一步 的 简化 , 假设 V(Y|X = z) = 0? 不 依赖 
于 z. 因此 , 可 以 把 线性 回归 模型 写成 下 述 形式 . 


13.1 定义 简单 线性 回归 模型 为 
Yi = bo + AXit éi, (13.2) 


其 中 , E(ei|Xi) = 0, V(ei|Xi) = 0. 


13.2 例 图 13.1 给 出 了 一 些 附近 的 行星 表面 温度 的 对 数 (Y) 和 光 密 度 的 对 
数 (X) 的 关系 . 同时 图 上 也 给 出 了 估计 的 线性 回归 线 , 后 面 将 简单 地 解释 它 . 

模型 中 未 知 的 参数 为 截 距 bo, 斜率 A 和 方差 o?. 令 Bo, Br 表示 Bo, Br 的 估计 . 
拟 合 曲线 为 


F(a) = Bo + Biz. (13.3) 
PM ROA Yi = Xi), 残 差 定义 为 
& =Y; — Ô; = Y; — (Bo + BX). (13.4) 


© 术语 “回归” 由 Sir Francis Galton(1822~1911) 提出 , (BRE RAIMA A A JL FA SAGRA h 
于 中 等 水 平 . 他 把 这 称 为 “向 均值 回归 ”. 
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残 差 平方 和 或 RSS, 衡量 了 曲线 是 否 很 好 的 拟 合 了 数据 , 它 定义 为 RSS = a 


i=1 


表面 温度 的 对 数 (Y) 


40 45 5.0 55 
光 密 度 的 对 数 (X) 


13.1 恒星 附近 的 数据 
实 线 是 最 小 二 乘 曲线 


13.3 EN Reb Ait RAF RSS = 》 G? 最 小 的 Aot 的 值 
i=1 


13.4 定理 最 小 二 乘 估计 为 


D- Xn)(% - Yn) 


A= z n —, (13.5) 
(Xi - Xn)? 
bo = Yn- ÂXn- (13.6) 


o? 的 无 偏 估计 为 


ya. (13.7) 


13.5 例 “考虑 例 13.2 中 的 行星 数据 . 最 小 二 乘 估计 为 B = 3.58, 所 = 0.166. 
WAM HAW F(x) = 3.58 + 0.166z, 见 图 13.1. 
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13.6 例 (2001 年 总 统 选举 ) ”图 13.2 给 出 了 佛罗里达 州 Buchanan(Y) 和 Bush(X) 
的 得 票数 的 散 点 图 . 最 小 二 乘 估计 (除去 棕榈 滩 县 的 票数 ) 和 标准 差 为 
Bo = 66.0991, (Po) = 17.2926, 
By = 0.0035, &(ĝ1) = 0.0002. 
拟 合 的 曲线 为 
Buchanan = 66.0991 + 0.0035Bush 


(在 后 面 会 讲 到 标准 差 是 如 何 计算 的 ). 图 13.2 也 给 出 了 残 差 . 当 残 差 是 随机 正 态 数 
时 , 线性 回归 的 推断 是 最 精确 的 . 基于 残 差 图 ， 这 个 例子 不 是 这 种 情况 . 如 果 对 得 票 
数 取 对 数 以 后 再 重复 上 述 分 析 , 得 到 


Bo = -2.3298, (ĝo) = 0.3529, 
ĝi = 0.730300, &(ĝı) = 0.0358. 


Bush Bush 


7.2 


6 


log(Buchanan) 
4 5 


3 


2 


7 8 9 10 1 12 13 TH B 13 
Jog(Bush) log(Bush) 


图 13.2 2001 年 总 统 选举 的 得 票数 , 见 例 13.6 


-一 


166 第 13 章 线性 回归 和 Logistic ANA” 


拟 合 的 曲线 为 
log(Buchanan) = 一 2.3298 + 0.7303 log(Bush). 


这 时 的 残 差 看 起 来 合理 些 , 于 是 会 想到 下 面 的 问题 : 如 果 Palm Beach County 的 票 
数 是 合理 的 , 又 将 如 何 分 析 呢 ? 
13.2 ”最 小 二 乘 和 极 大 似 然 
假如 增加 假设 ci| Xi ~ N(0, 07), 也 就 是 
YilXi ~ N(m,0°), 


其 中 , ui = Bo + Xi. 极 大 似 然 函 数 为 


TAXY) = [fxd fri) 


i=l 


= [I[fx(X) TI fix xy) 
i=l 


i=l 


= £i X Lo, 


其 中 £ = [] fx (Xi) 并 且 


i=1 
Lo = II fix (lx). (13.8) 
iat 


第 一 项 Li 不 涉及 参数 bo, bi. 于 是 将 关注 第 二 项 Lo, 称 它 为 条 件 似 然 函 数 , 由 下 式 
给 出 : 


La = Llo, 61,0) = [I frix (YilX) “on 人 -页 Lr- we} ; 
i=l € 


条 件 对 数 似 然 函 数 为 


a 


(Bo, B1, 0) = —nlogo — 525 D (Yi — (Go + 1X0). (13.9) 
i=l 


为 了 求 出 (Bo, Br) 的 极 大 似 然 值 , $ €(Bo, 61,0) 最大. 从 (13.9) 可 以 知道 , 令 似 然 
函数 最 大 , 相当 于 使 RSS = 》 (Y: — (Bo + BiXi) 最 小 . 因此 , 已 经 证 明了 下 面 的 


i=1 
定理 . 
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13.7 定理 ”在 正 态 性 的 假设 下 , 最 小 二 乘 估计 也 是 极 大 似 然 估 计 . 
也 可 以 使 (6o, B1,0) 达到 最 大 的 o, 从 而 得 到 极 大 似 然 估 计 


ai L 
人 2 = 元 La. (13.10) 
这 个 估计 类 似 无 偏 估计 , 但 是 又 不 等 同 于 无 偏 估计 . 通常 情形 下 会 使 用 无 偏 估 计 
(13.7). 
13.3 ”最 小 二 乘 估计 的 性 质 


现在 来 讨论 最 小 二 乘 估计 的 标准 差 和 极限 分 布 . 在 回归 问题 中 , 通常 在 X" = 
(Xi ,Xn) 条 件 下 关注 估计 的 性 质 . 因此 , 所 说 的 均值 和 方差 是 条 件 均值 和 条 件 
WH. 


13.8 定理 A BT = (BoA) RFR, 则 


E(BIX") = ( 多 J 


1 Š = 

A 2 | FX? -X 
VIX") = 让 22 : al Fs (13.11) 

x -Xn 1 


其 中 sk =n (Ki - Xn)? 
i=l 


Bo Al B, 的 标准 差 估计 值 可 以 通过 取 V(BIX") 的 对 角 线 元 素 的 平方 根 , JHE o 
用 5 代替 . 因此 ， 


> | 
SIR o i= 
alo) = a o (13.12) 
e) IF (13.13) 
实际 上 , 应 该 把 它们 写成 (名 |X") 和 EIX”), 但 是 这 里 使 用 简写 符号 (Ao) 和 


eÂ). 
13.9 定理 。 在 适当 的 条 件 下 , 有 
1. HE. By > bo te fh p 


2 Hie EAH. 2- ~ N(0,1) 和 E ~» N(0,1). 
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3. Bo 和 i 的 1 一 Qa 的 渐 近 置信 区 间 分 别 为 
Bo + 2a/28e(Bo)4# By + za,/288(41). (13.14) 


4. 检验 Ho : B1 = 0 At Hı : 6 #0 的 Wald 检验 ”为 :如果 |W] > zay2, 则 拒 
绝 Ho, 其中, W = D /se(H1). 

13.10 例 ”对 于 以 上 的 选举 数据 , 在 取 对 数 的 尺度 下 , 房 的 95% 的 置信 区 间 
为 0.7303 土 2(0.0358) = (0.66,0.80). 检验 Ho : Bl =0 对 本 :Bi 关 0 的 Wald 统计 
量 为 |W| = |0.7303 — ol/0.0358 = 20.40, p 值 为 P(|Z| > 20.40) ~ 0. 这 是 证 明和 斜率 
不 等 于 0 的 充分 证 据 . 


13.4 fi 测 
假设 从 数据 (Xi Yi), s (Xn Yn) 已 经 估计 了 一 个 回归 模型 F(z) = Bo + Are. 
观测 到 了 一 个 新 事物 的 协 变量 的 值 为 X = re 希望 预测 它 的 结果 Yo Ye 的 估计 为 
Ê, = Bo + Âz., (13.15) 
根据 两 个 随机 变量 之 和 的 方差 公式 , 有 
V(¥.) = V(Bo + Biz.) = Vo) + 12V (Â) + 2zvCov(B,B)， 


定理 13.8 给 出 了 这 个 等 式 中 所 有 项 的 公式 . 标准 差 的 估计 值 命 (多 ) 是 这 个 方差 的 
平方 根 , 并 用 5? 代替 o?. 然而 , Yo 的 置信 区 间 不 是 通常 共识 的 形式 P. 20/28, 其 
原因 在 13.10 习题 10 中 给 出 . 正确 的 置信 区 间 公 式 由 下 面 的 定理 给 出 . 


13.11 定理 (预测 区 间 ) 令 
J X-X.) 
@ =e | 4—1], (13.16) 
Dx: - X)? 
i=l 
Y, 的 1-a 的 近似 预测 区 间 为 
¥, + zap2bn. (13.17) 


13.12 例 (选举 数据 再 讨论 ) ”在 对 数 尺度 下 , 线性 回归 给 出 了 下 面 的 预测 方 
程 : 
log (Buchanan) = —2.3298 + 0.7303log(Bush). 


© 回想 起 等 式 (10.5), 检验 Ha : B = 2o 对 Ha : 8 + Bo 的 Wald 检验 统计 量 为 W = (Ê — Bo)/ 全 (及 ). 
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在 棕榈 滩 城市 Bush 有 152954 M, Buchanan 有 3467 票 . 在 对 数 尺 度 下 , 为 11.93789 
和 8.151045. 假设 回归 模型 是 恰当 的 , 这 个 结果 有 多 大 的 可 能 性 ? 预测 Buchanan 得 
票 的 对 数 等 于 一 2.3298 十 0.7303(11.93789) = 6.388441. 现在 , 8.151045 大 于 6.388441, 
但 它 是 “显著 ”大 吗 ? 来 计算 置信 区 间 . 求 出 & = 0.093775, 95% 的 近似 置信 区 间 
为 (6.200,6.578), 这 显然 不 包含 8.151. 实际 上 , 8.151 和 P. 的 距离 大 约 是 20 倍 标准 
差 . 通过 求 指数 短 回 到 实际 票数 , 置信 区 间 为 (493,717), 而 实际 的 得 票数 是 3467. 


13.5 多 元 回归 
现在 假设 协 变量 是 长 度 为 上 的 向 量 . 数据 的 形式 为 
YX) o FX), (Yn Xn), 


其 中 ， 
Xi = (Xis Xir). 


而 Xi 是 大 个 协 变量 的 第 ;个 观测 . EE i= 1,… ,nn 线性 回归 模型 为 


k 
Yi =) Xy+ éi (13.18) 
j=1 
其 中 , E(ei|Xii,… ,Xi) = 0. BARAA DAREN, 这 可 以 对 于 i = 1, ,nn 
令 Xa =1 来 实现 . 在 这 一 点 上 , 可 以 更 方便 地 用 矩阵 符号 表示 模型 , 结果 可 以 记 为 


Yı 
yala 
Yn 
协 变量 矩阵 可 以 记 为 
Xu Xi o Xk 
Xn Xn oo Xo 
x= . è . 

Xn Xn * Xnk 


每 一 行 是 一 个 观测 , 列 对 应 的 是 上 个 协 变量 . 因此 , X 是 一 个 (n x k) 的 矩阵 . 令 


-人 
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然后 可 以 把 (13.18) 写 为 
Y=XBt+e. (13.19) 


最 小 二 乘 估计 的 形式 由 下 面 的 定理 给 出 . 
13.13 Æ Jit (kxk) 4E XTX ATES, 


B= (XTX) XTY, (13.20) 
V(B|X") = (XTX), (13.21) 
B= N(B,07(XTX)-). (13.22) 


k 
估计 的 回归 函数 为 Az) = Âz. 0? 的 无 偏 估计 为 
j=l 


22= 一 


1 
n-k a 


> 


其 中 , C= XA 一 Y 是 残 差 向 量 . 6; 的 1 一 a 的 近似 置信 区 间 为 
Â; + za/28(B;), _ (13.23) 


其 中 , (G,) 是 矩阵 (XTX) 的 第 了 个 对 角 线 元 素 . 
13.14 例 1960 年 47 个 州 的 犯罪 数据 可 以 从 下 述 网 址 获得 . 
http://lib.stat.cmu.edu/DASL/Sotries/USCrime.html. 
如 果 用 10 个 变量 拟 合 犯罪 率 的 线性 回归 方程 , 可 以 得 到 


n 


协 变量 Bj; p) t fit p tii 
(RE) —589.39 167.59 一 3.51 0.001** 
Age 1.04 0.45 2.33 0.025* 
Southern State 11.29 13.24 0.85 0.399 
Education 1.18 0.68 1.7 0.093 
Expenditures 0.96 0.25 3.86 0.000*** 
Labor 0.11 0.15 0.69 0.493 
Number of Males 0.30 0.22 1.36 0.181 
Population 7 0.09 0.14 0.65 0.518 
Unemployment(14~24) —0.68 0.48 -1.4 0.165 
Unemployment(14~24) 2.15 0.95 2.26 0.030* 
Wealth —0.08 0.09 —0.91 0.367 


这 个 表格 显示 了 典型 的 多 元 回归 过 程 的 结果 . t 值 是 检验 Ho : p; = 0 Xt H : 
Bi #0 的 Wald 检验 统计 量 的 值 . 星 号 表示 “显著 性 程度 ”, 星 号 越 多 表示 2 值 
越 小 . 这 个 例子 提出 了 几 个 重要 的 问题 : (1) 应 该 从 这 个 模型 中 删 去 几 个 变量 
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吗 ? (2) 可 以 把 这 些 关 系 解释 成 因果 关系 吗 ? 例如 , 可 以 说 低 的 犯罪 预防 支出 
导致 了 高 的 犯罪 率 吗 ? 下 一 节 将 回答 问题 (1), 在 第 16 章 中 再 回答 问题 (2). 
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例 13.14 说 明了 多 元 回归 中 经 常 出 现 的 一 个 问题 . 数据 可 能 有 许多 协 变量 , 但 
是 并 不 希望 把 所 有 的 项 都 放 到 模型 中 . 协 变量 个 数 少 的 小 模型 有 两 个 优点 : 它 的 预 
测 可 能 比 大 模型 的 预测 要 好 , 而 且 它 比较 简单 . 一 般 来 说 , 当 回归 模型 中 变量 增多 
时 , 预测 的 偏差 降低 而 方差 增加 , 协 变量 太 少 导致 偏差 很 高 , 这 称 为 拟 合 不 足 . 协 变 
基 太 多 导致 方差 很 高 , 这 称 为 过 拟 合 . 好 的 预测 结果 要 平衡 偏差 和 方差. 

模型 选择 中 有 两 个 问题 :(i) 给 每 个 模型 指定 一 个 “得 分 ”, 它 在 某 种 意义 上 衡量 
了 模型 的 好 坏 , (i) 在 所 有 的 模型 中 找 出 得 分 最 好 的 一 个 . 

首先 来 讨论 给 模型 打分 的 问题 . 令 SC {1 k}, 令 Xs = {Xj : j E S} 表示 
协 变量 的 一 个 子 集 . 令 Bs 表示 对 应 的 协 变量 的 系数 , Bs 表示 Bs 的 最 小 二 乘 估计 . 
同时 , 令 Xs 表示 代表 协 变量 的 子 集 的 X ERE, 定义 Fs(z) 为 估计 的 回归 方程 . 根 
据 模型 5 得 到 的 预测 值 记 为 Yi(S) = F(Xi). 预测 的 风险 定义 为 


R(S) = Dee 1(S) — Y;") (13.24) 


其 中 , Yy 表示 当 协 变量 的 值 为 X; 时 , Yi 未 来 的 观测 值 . 目标 是 选择 5 使 得 R(5) 
最 小 . 
训练 误差 定义 为 
Re(S) = 》 (各 (5) — Y1)’. 
i=1 
这 个 估计 作为 R(S) 的 估计 偏差 很 大 
13.15 定理 “训练 误差 是 预测 风险 的 向 下 偏差 估计 ， 


了 (Re(S)) < R(S). 


bias(Re-($)) = E(Rtx($)) — R(S) = -2 》 Cov(¥, Yi). (13.25) 


izl 


偏差 的 原因 是 数据 被 使 用 了 两 次 : 估计 参数 和 估计 风险 . 当 用 许多 参数 拟 合 复 
杂 模型 时 , 协 方差 Cov( 部 , Yi) 会 很 大 , 训练 误差 的 偏差 也 变 得 很 糟糕 下 面 有 一 些 
较 好 的 风险 估计 . 
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Mallows Cp 统计 量 定义 为 
R(S) = Re(S) + 2\8|6?, (13.26) 


其 中 , |S| 表示 S 中 的 项 数 , 5? 是 从 全 模型 (所 有 的 自 变量 都 在 模型 中 ) 中 得 到 的 0? 
的 估计 . 这 是 训练 误差 加 上 偏差 校正 . 这 个 估计 是 以 Colin Mallows 的 名 字 命名 的 ， 
是 他 首先 构造 了 这 个 估计 . (13.26) 中 的 第 一 项 衡量 了 模型 的 拟 合 效果 , 第 二 项 衡量 
了 模型 的 复杂 性 . 把 统计 量 Cp 看 作 是 


拟 合 度 的 欠缺 + AREEN. 


因此 , 找 出 一 个 好 的 模型 就 是 要 平衡 拟 合 效果 和 模型 的 复杂 性 . 
估计 风险 的 一 个 相关 方法 是 AIC(Akaike 信息 准则 ). 选择 5 的 思想 是 使 下 面 
的 表达 式 最 大 : 


ls — |S]. (13.27) 


其 中 , 4s 是 模型 的 对 数 似 然 函 数 在 极 大 似 然 估 计 的 值 ?. 这 可 以 看 作 是 “ 拟 合 优 度 ” 
减 去 “复杂 性 ”. 在 正 态 误差 的 线性 回归 中 ( 令 o 等 于 最 大 模型 得 到 的 估计 ), 最 大 
化 AIC 等 同 于 最 小 化 Mallows 的 Cp 统计 量 , 见 13.10 习题 8. 附录 包含 了 更 多 的 
AIC 的 解释 . 

估计 风险 的 另 一 种 方法 是 交叉 验证 方法 . 在 这 种 情况 下 , 风险 估计 为 


Rov(S) = po — Do)’, (13.28) 
i=l 


其 中 , hi) 是 把 Yi 删 去 后 拟 合 的 模型 对 Yi 的 预测 值 . 可 以 证 明 


Rcv(s)= > (35) 5 (13.29) 
i=l ba 
其 中 , Uii(5) 是 下 面 矩 阵 对 角 线 上 第 i 个 元 素 . 
U(S) = Xs(XEXs)-1XF. (13.30) 


然而 , 并 不 真正 需要 把 每 个 观测 删 去 后 再 重新 拟 合 模型 . 更 广义 的 是 k-fold 交叉 验 
证 . 把 数据 分 成 大 组 , ATR k = 10. 把 其 中 一 组 数据 去 掉 , 然后 用 剩 下 的 数据 拟 合 
模型 . 然后 用 》 (Yi — Yi)? 估计 风险 , 这 里 求 和 是 对 删 去 的 数据 而 言 .对 个 组 分 别 


重复 上 述 过 程 , 把 得 到 的 风险 求 平均 值 作为 最 终 的 风险 . 


@ 一 些 文献 定义 的 AIC 和 这 里 有 略微 的 不 同 , 那些 文献 中 的 AIC 是 本 文 的 值 乘 以 2 或 者 一 2. 这 对 哪 
个 模型 更 优 是 没有 影响 的 - 
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对 于 线性 回归 , Mallows Cp 和 交叉 验证 经 常 产 生 本 质 相 同 的 结果 , 所 以 可 以 只 
使 用 Mallows Cp 方法 . 在 后 面 一 些 更 复杂 的 例子 中 , 交叉 验证 会 更 有 用 . 
另 一 种 评价 方法 是 BIC( 贝 叶 斯 信息 准则 ). 选择 一 个 模型 的 标准 是 使 得 下 面 的 
表达 式 最 大 : 
BIC(S) = és — a logn (13.31) 


BIC 得 分 有 一 个 贝 叶 斯 解释 . 令 5 = {51,… , Sm} 表示 模型 的 集合 . 假设 给 模型 指 
定 了 先 验 P(S;) = 1/m. 同时 在 每 个 模型 内 对 参数 指定 一 个 平滑 的 先 验 . 可 以 证 明 
模型 的 后 验 概率 近似 为 So) 

eBIC(S; 


BIC(S,) 
D e 


因此 , 使 得 BIC 最 大 的 模型 就 好 像 相当 是 选择 后 验 概率 最 大 的 模型 , BIC 得 分 也 可 
以 用 信息 论 上 称 为 最 小 描述 长 度 的 术语 来 解释 . BIC 得 分 除了 给 模型 复杂 性 更 严重 
的 惩罚 以 外 和 Mallows 的 Cp 方法 是 相同 的 . 因此 和 其 他 方法 相 比 , 人 们 往往 选择 
更 小 的 模型 . 

现在 回 到 模型 搜索 的 问题 . MRA 个 协 变量 , 就 有 2* 个 可 能 的 模型 . 需要 在 
这 些 模 型 中 搜索 , 并 给 每 一 个 模型 指定 一 个 得 分 , 然后 选择 得 分 最 佳 的 模型 . 如 果 ke 
不 是 太 大 , 则 可 以 对 所 有 模型 都 作 搜索 . 当 k 很 大 时 , 这 是 不 可 能 的 . 在 这 种 情况 
下 , 就 需要 对 所 有 模型 的 子 集 作 搜索 . 两 种 常用 的 方法 是 向 前 逐步 回归 和 向 后 逐步 
回归 . 在 向 前 逐步 回归 中 , 模型 开始 时 没有 一 个 协 变量 , 然后 往 模型 中 加 一 个 协 变 
基 得 到 得 分 更 好 的 模型 . 然后 继续 往 模型 里 加 一 个 变量 , 直到 模型 的 得 分 不 再 提高 . 
向 后 逐步 回归 也 是 类 似 的 , 它 首先 把 所 有 的 协 变量 都 放 到 模型 里 , 然后 一 次 删 掉 一 
个 协 变量 . 这 两 种 算法 都 是 贪 禁 算法 , 没有 一 种 能 保证 一 定 能 找到 得 分 最 好 的 模型 
另 一 种 受 欢 迎 的 方法 是 在 所 有 模型 中 随机 选取 一 个 集合 进行 搜索 . 然而 , 没有 证 据 
说 明 这 种 搜索 方式 比 前 面 两 种 搜索 方式 强 . 

13.16 例 ”根据 AIC 应 用 向 后 逐步 回 归来 对 犯罪 数据 建 模 下 面 的 结果 是 用 
R 程序 得 到 的 结果 . 这 个 程序 用 的 AIC 和 定义 略 有 不 同 . 用 程序 中 的 定义 , 寻找 最 
小 的 AIC 值 (不 是 最 大 的 ). 这 和 使 Mallows Cp 达到 最 小 是 一 样 的 . 

全 模型 (包含 所 有 的 协 变量 ) 的 AIC= 310.37. 按照 顺序 排列 , 删 掉 一 个 变量 的 
AIC 得 分 为 


变量 Pop Labor South Wealth Males Ul Educ. U2 Age Expend 
AIC 308 309 309 309 310 310 312 314 315 324 


例如 , 把 Pop 从 模型 中 删 掉 保留 其 他 的 变量 , 则 AIC 为 308. 根据 这 个 信息 , 把 
“Population” 从 模型 中 删 掉 , 当前 的 AIC 得 分 为 308. 现在 考虑 从 当前 模型 中 删 掉 
一 个 变量 . AIC 得 分 为 


P(Sj| 数 据 ) ~ 
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变量 South Labor Wealth Males Ul Educ. U2 Age Expend 
AIC 308 308 308 309 309 310 313 313 329 


然后 从 模型 中 删 掉 “Southern”. 这 个 过 程 继续 , 直到 删 掉 任意 变量 时 AIC 不 再 变 
化 . 最 后 , 模型 为 
Crime=1.2Age+0.75Education+0.87Expenditure+0.34Male—0.86U1+2.31U2. 
注意 ! 这 还 不 能 回答 哪个 变量 导致 犯罪 的 问题 
还 有 一 种 方法 可 以 避免 在 所 有 可 能 的 模型 中 搜索 .这 种 方法 是 由 Zheng 和 
Loh(1995) 年 提出 的 , 它 不 是 搜索 预测 误差 最 小 的 模型 . 它 而 是 假设 B; 的 某 一 子 
集 是 恰好 等 于 0, 然后 尝试 找 出 真实 的 模型 . 这 就 是 , 包含 非 零 的 B; 的 最 大 子 模型 . 
这 个 方法 按照 下 面 的 步骤 进行 . 


[ Zheng-Loh 模型 选择 方法 

1， 用 个 协 变量 拟 合 全 模型 , 令 W = A/R) 表示 检验 Ho : B; = 0 对 
Hy: By £0 HY Wald 检验 统计 量 . 

2. 把 这 些 统计 量 按照 绝对 值 从 大 到 小 排列 


[Way] > [Wey] > 2 Wol- 
3. 令 了 是 使 得 
RSS(j) + jô? logn 


最 小 的 j 值 , 其 中 , RSSG) 是 第 了 大 Wald 统计 量 的 残 差 平方 和 : 
4. 选择 含有 了 项 目 Wald 统计 量 绝对 值 最 大 的 回归 作为 最 后 的 模型 . 


Zheng 和 Loh 证 明了 , 在 适当 的 条 件 下 , 当 样本 量 增加 时 , 这 种 方法 以 趋 于 1 的 
概率 选择 真 模型 . 


13.7 Logistic 回归 


到 现在 为 止 , 假设 Y: 是 实际 值 . Logistic 回归 也 是 一 种 参数 方法 , 它 解决 的 是 
Yi € {0,1} 这 种 二 值 回归 . 对 于 k 维 协 变量 X, 模型 为 


pi = p(B) = P(Y; = 1X = 2) =, (13.32) 


© 这 里 给 出 的 只 是 这 种 方法 的 其 中 一 个 版 本 .实际 上 , SM AK jlogn REM AMEN RET BR HE 
择 的 一 个 . 
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或 者 等 价 于 j 
logit(pi) = 》 8245, (13.33) 
j=1 a 
其 中 ， 
logit(p) = log (4) 。 (13.34) 


“logistic 回归 ”的 名 字源 自 e*/(1 +e), EAH logistic 函数 . 一 维 协 变量 的 
Logistic 图 见 图 13.3. 
因为 Y: 是 二 值 的 , 数据 服从 Bernoulli 分 布 ， 


Yi|X; = z; ~ Bernoulli(p;). 


因此 , (条 件 ) 似 然 函 数 为 
£(8) = [J p(B) (a — pi). (13.35) 


i=l 


A z 
图 13.3 logistic K$ p = e* /(1 + e”) 


最 大 化 C(8) 可 以 得 到 极 大 似 然 估计 B. 有 一 种 快速 的 数值 算法 , 称 为 重 加 权 最 小 二 
乘法 . 它 的 步骤 如 下 ， 


重 加 权 最 小 二 乘 算法 
选择 初始 值 如 = (B0,--- BQ), 对 于 i = 1,… ,n, 用 等 式 (13.32) 计算 p. & 
s = 0, HINER FERII, 直到 收敛 


Le 
Yi -pi 


p-p) 
2.4 W 是 一 个 对 角 和 矩阵 , 它 的 对 角 元 素 (i,i) 等 于 pi- pi). 
3. 令 


Zi = logit(pj) + i=1,.…,n. 


P=(XTWX)-1XTWS, 


这 相当 于 作 2 关于 X 的 (加 权 ) 线性 回归 . 
4.4 s=s+1, 并 回 到 第 一 步 . 
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Fisher 信息 矩阵 了 也 可 以 通过 数值 方法 得 到 . 房 的 方差 的 估计 值 为 了 = 1 
的 对 角 线 元 素 (J). 模型 选择 通常 会 用 AIC 得 分 Ls — |S]. 

13.17 例 ” 冠 动脉 风险 因素 研究 (CORIS). 数据 是 来 自 南非 三 个 乡村 地 区 的 
162 名 年 龄 为 15~64 岁 的 女性 (Rousseauw et al., 1983). 结果 Y 是 患 有 =1) 
没 患 有 (Y = 0) 冠 动脉 心脏 病 . 有 9 个 协 变量 : 收缩 压 、 累 计 烟草 量 (kg)、 低 密度 
脂 蛋 白 、 脂 肪 、 家 族 心脏 病史 、A 型 行为 、 肥 胖 、 当 前 酒精 含量 和 年 龄 . Logistic E 
归 得 到 下 面 的 估计 和 系数 的 Wald 检验 统计 量 W;. 


变量 A & W; p 什 
RE 一 6.145 1.300 一 4.738 0.000 
收缩 压 0.007 0.006 1.138 0.255 
烟草 量 0.079 0.027 2.991 0.003 
低 密度 脂 蛋 白 0.174 0.059 2.925 0.003 
脂肪 0.019 0.029 0.637 0.524 
家 族 心 脏 病史 0.925 0.227 4.078 0.000 
A 型 行为 0.040 0.012 3.233 0.001 
肥胖 一 0.063 0.044 一 1.427 0.153 
当前 酒精 含量 0.000 0.004 0.027 0.979 
年 龄 0.045 0.012 3.754 0.000 


是 否 会 对 下 述 结果 感到 惊讶 呢 ? 收缩 压 不 显著 , 肥胖 的 系数 值 为 负 值 , 如 果 惊 
讶 的 话 , 就 会 为 关联 性 和 因果 性 疑惑 了 . 这 个 问题 将 在 第 16 章 讨 论 . 收缩 压 不 显著 
并 不 意味 着 收缩 压 不 是 导致 心脏 病 的 重要 因素 . 它 意味 着 和 模型 中 其 他 变量 相 比 ， 
它 不 是 一 个 重要 的 预测 变量 . 


13.8 文献 注释 


有 关 线 性 回归 的 著作 见 文献 (Weisberg, 1985). 从 数据 挖掘 角度 写 的 有 关 回 归 
的 书 见 文献 (Hastie et al., 2002). Akaike 信息 准则 (AIC) 见 Akaike(1973) 的 著作 . 
贝 叶 斯 信息 准则 (BIC) 见 文献 (Schwarz, 1978). Logistic 回归 的 参考 文献 有 (Agresti, 
1990) 和 (Dobson, 2001). 


13.9 附 录 


Akaike 信息 准则 (AIC). 考虑 模型 的 集合 (Mi, Ma,---}. & 方 (z) 是 用 模型 M; 
的 极 大 似 然 估计 得 到 的 估计 概率 函数 因此, F(x) = flep), 这 里 房 是 模型 M, 
的 参数 6i 的 极 大 似 然 估计 . 使 用 损失 函数 DI, f), 其 中 ， 


2U9 = Sle) og (£ o) 
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是 两 个 概率 函数 的 Kullback-Leibler 距离 . 相应 的 风险 函数 为 RUF, f) =E, Â). 
由 于 D(f,f) =c- All, f, RB c= X f(a) log f(x) 并 不 依赖 于 f, E 


AEA) = Lse@)los fie 2). 
因此 , 风险 函数 最 小 化 等 同 于 最 大 化 a 人 ,月 三 E(4(f, f). 
尝试 用 》 Fle) log Fla) 估计 alf, À), 正如 回归 中 的 训练 误差 是 预测 风险 的 有 
偏 估计 , 同样 》 Fle) log fie) 是 af À 的 有 偏 估计 . 事实 上 , 这 个 偏差 近似 等 于 


IMil. 因此 = 
13.18 定理 ”AIC(M;) 是 a(f, 放 的 近似 无 偏 估计 . 


13.10 习 题 
1. 证 明定 理 13.4. 
2. 证 明定 理 13.8 中 标准 差 的 公式 . 应 该 把 Xi; 看 作 是 固定 常数 . 
3. 考虑 下 面 的 回归 模型 ， 
= BX, +e. 


求 出 6 的 最 小 二 乘 估计 . 求 出 估计 的 标准 差 . 找 出 保证 估计 是 一 致 的 条 件 . 

证 明 等 式 (13.25). 

. 在 简单 线性 回归 模型 中 , 构造 检验 Ho : B1 = 172o 对 Hi : Ai #17 的 Wald 检 

验 统计 量 . 

从 http://lib.stat.cmu.edu/DASL/Datafiles/carmpgdata.html 下 载 乘客 行车 里 程 

数据 . 

(a) 根据 HP( 马 力 ) 用 简单 线性 回归 模型 来 预测 MPG( 每 加 仑 汽油 行使 里 程 ). 汇 
总 分 析 , 包括 带 数 据 和 拟 合 直线 的 图 . 

(b) 重复 分 析 , 但 是 用 log(MPG) 作为 响应 变 基 . 比较 两 个 分 析 结 果 

.从 http://lib.stat.cmu.edu/DASL/Datafiles/carmpgdata.html 下 载 乘客 行车 里 程 

数据 . 

(a) 用 其 他 变量 拟 合 多 元 线性 回归 模型 , 并 预测 MPG. 总 结 你 的 分 析 - 

(b) 用 Mallow Cp 选择 最 优 的 子 模型 . 用 下 面 的 方法 搜索 模型 : (i) 向 前 逐步 回归 ， 
(ii) 向 后 逐步 回归 . 总 结 你 的 发 现 . 

(c) 用 Zheng-Loh 模型 选择 方法 , 并 和 (b) 作 比 较 . 

(d) 作 所 有 可 能 的 回归 . 比较 Cp 和 BIC. 比较 其 结果 . 

考虑 带 有 正 态 误差 的 线性 回归 模型 , 并 设 o 已 知 . 证 明 使 AIC( 等 式 (13.27)) 最 

大 的 模型 就 是 MallowCp 统计 量 最 小 的 模型 . 


aoe 


只 


s 


2 
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9. 在 这 个 问题 中 进一步 探讨 AIC 方法 . 令 XX，… Xn 是 独立 同 分 布 的 观测 . 考虑 
两 个 模型 Mo, Mı. 在 Mo F, 假设 数据 服从 N(0,1), 而 在 Mi F, 假设 数据 服 
从 N(0,1), 0 € R, 9 RA, 


Mo : X1,… ,Xn ~ N(0,1), 
Mı : Xn- ,Xn ~ N(0,1),0 ER. 


这 是 看 待 假设 检验 问题 Ho :9 = 0 对 H : 0# 0 的 另 一 种 方法 . 4 bo(b) 是 对 
数 似 然 函 数 . 模型 的 AIC 得 分 是 对 数 似 然 函数 在 极 大 似 然 估计 上 的 取 值 减 去 参 
数 的 个 数 . (有 些 人 会 把 这 个 得 分 乘 以 2, 但 这 是 没有 关系 的 . ) 因此 , Mo 的 AIC 
得 分 为 AICo = bn(0), Mx 的 AIC 得 分 为 AICi = bn( 有 — 1. 假设 选择 最 高 AIC 
得 分 的 模型 . 令 J, 表示 选择 的 模型 ， 


了 人 0，AICo > AIC, 
” (i AIC: > AIC. 


(a) 假设 Mo 是 真实 的 模型 , 也 就 是 9 = 0. RH 


lim P(Jn = 0). 
ano 


现在 计算 lim P(In = 0)( 当 0 #0 m). 
(b) 当 9=0 时 jim P(Jn = 0) #1, 这 个 事实 是 有 些 人 说 AIC “过 拟 合 ” 的 原因 . 
但 将 会 看 到 这 不 完全 正确 . 比如 , 令 pe(z) 表示 均值 为 9, 方差 为 1 的 正 态 密 
BERR. 定义 
sin J da), =0, 
fala) = { a 


如 果 0 = 0, 证 明 当 n — 00 Mt, D(do, fa) = 0, 其中， 
Do) = f s(2) 08 (22) az 


是 Kullback-Leibler PERS. 同时 证 明 当 9 4 0 时 , D(do, fa) = 0. 因此 , 即使 
AIC 对 正确 模型 “ 拟 合 过 头 了 ”, 它 也 相合 的 估计 了 真实 的 密度 . 
(c) 对 BIC 重复 上 述 分 析 , BIC 是 对 数 似 然 函 数 减 去 (p/2) log n, 其 中 , p 是 参数 
的 个 数 , n 是 样本 量 . 
10. 在 这 个 问题 中 , 进一步 探讨 预测 区 间 . 4 0 = Po 十 PuX,, HA O= A+ AX. A 
lt, P. = ô, Ti Ya = 0 +e. 其 中 ,~ N(0,se?), 其 中 ， 


se? = V(6) = V( + Biz.) 
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由 于 VÓ SEF VÊ.) 而 8+2VV( 人 是 6= Bot Biz. 的 95% 的 置信 区 间 估 
计 . 但 是 , 现 请 证 明 , 它 不 是 Y 的 有 效 的 置信 区 间 . 
(a) $ s = y VÊ.), 证 明 


S ~ 2 
PR, -2s <¥. < Pa +23) = P (-2< N (0145) <2) 


# 0.95. 
(b) M Y. 的 数值 等 于 参数 9 加 上 随机 变量 . 可 以 通过 定义 下 面 的 等 式 来 确 
定 : 
Ya 一 Ze)2 
2_ wT 2_|a a: 
&=V(¥.) +o SoC o 


实际 上 , 用 5 代替 o, 得 到 的 结果 用 6 表示 . 现在 考虑 区 间 P. + 2n. 证 明 
PÊ, — 26n < Ya < P. + 2) = P(-2 < N(0,1) < 2) ~ 0.095. 


11. 从 原 书 的 网 页 下 载 心脏 病 风险 因素 研究 (CORIS) 数据 . 根据 AIC 准则 使 用 向 
后 逐步 法 选择 一 个 Logistic 回归 模型 . 并 总 结 所 得 到 的 结果 
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在 本 章 中 , 再 次 讲述 多 项 式 模型 和 多 元 正 态 模型 . 首先 回顾 一 下 线性 代数 的 一 
些 符号 . 在 接 下 来 的 叙述 中 , z 和 y 代表 向 量 , A 代表 和 矩阵. 


线性 代数 符号 : 

s'y AB ayy; 
了 

14| FAR 

AT ”4 的 转 置 

At ARRIERE 

I 单位 矩阵 

tr(4) “正方 矩阵 的 迹 


AV? SRE ED HR 

矩阵 的 迹 满足 tr(4B) = tr(BA) 和 tr(A + B) = tr(A) + tr(B). 同时 , 如果 a 
是 一 个 标量 时 , tr(a) = a， 如 果 对 于 所 有 的 非 零 向 最 z 都 有 oT De > 0 时 , 矩阵 
2 是 正定 的 . 如 果 矩 阵 4 是 对 称 和 正定 的 , 它 的 平方 根 AY? 存在 , 并 具有 下 述 性 
Bs (140? 是 对 称 的 ; (2)4 = AVPAN?, (3)4724-M2 = A-1242 = 1, 其 中 ， 
4-1/2 = (AY/2)-1. 


14.1 随机 向 量 
多 变量 模型 涉及 下 面 形式 的 随机 向 量 X: 


[am E(X1) 
w=] 2 [= 3 : (14.1) 
Mk E(Xx) 


协 方差 矩阵 D, 也 记 为 VX), 定义 为 
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vx) Cov(X1,X2) -> Cov(X1, Xk) 
_ | cy VOR} > Fie (14.2) 
Cov(Xz,X1) Cov(Xk, X2) … V(X#) 


这 也 称 为 方差 矩阵 或 协 方差 矩阵 . 逆 矩 阵 DO) Ra ER. 

14.1 定理 Aa 表示 长 度 为 上 的 向 量 , 夺 表示 长 度 也 为 a 均值 为 /方差 为 
E 的 随机 向 量 ， 则 E(aTX) = aly, V(aTX) = aTZa. 如 果 A 是 大 列 的 矩阵 ， 则 
E(AX) = Ap, V(AX) = AXAT. 


现在 假设 有 7 个 向 量 组 成 的 随机 样本 : 
Xu Xn Xin 
aaah CaN aa Pee Xana, (14.3) 
Xn Xa Xin 


其 中 ,元 =n) YX 样本 方差 矩阵 ( 也 称 为 协 方差 矩阵 或 者 方差- Bo EI) 


j=l ` 
为 
811 812 “°° Sik 
812 82 … 32k 
一 . ` A (14.4) 
Sik $2k “°° Skk 
其 中 ， 


1 Š x pe 
Sab = maLa —Xa)(Xvj — Xo). 


可 以 得 到 E(X) = p, 和 E(S) = X. 
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14.2 相关 系数 的 估计 
考虑 来 自 二 维 变量 分 布 的 n 个 数据 点 : 


Xu X12 eh Xin 
Xa J’ Xn J’ i Xan 三 
回想 起 Xi 和 Xo 的 相关 系数 为 
a E(X — 11)(Xo — 12)) 
P as oo 
FUP, of = V(Xi:),j = 1,2. EBRAR 


(n—1)-! DC —X1)(Xzi — X2) 
2 ii 
A= PEFS ， 


其 中 ， 
3 = 4 Le -X;). 


(14.5) 


(14.6) 


可 以 用 Delta 方法 构造 p 的 置信 区 间 . 然而 可 以 证 明 如 果 首 先 构 造 函 数 9 = f(p) 
的 置信 区 间 , 然后 利用 逆 函 数 三: 可 以 得 到 p 的 更 精确 的 置信 区 间 ， 这 个 方法 由 


Fisher 提出 , 具体 做 法 如 下 , 定义 和 它 的 北 函 数 
1E) = 3 ogl +r) = log(t —7)), 


ey e? -1 
P@= e+ 1° 
相关 系数 的 近似 置信 区 间 


1 计算 i 
B= 7(D) = 5 ogl +) —log(t — A). 


2. 计算 8 的 近似 标准 差 , 可 以 证 明 它 的 值 为 


3. 0 = f(p) 的 1 一 a 的 近似 置信 区 间 为 


a Za/2 3 2a/2 
三 |6 一 ,0 
(a,b) ( Vn—3 + mm 一 5) 


O 更 精确 地 讲 , 在 公式 si 里 如 果 将 n 一 1 换 成 n 就 不 是 能 入 式 , 但 是 这 个 差别 很 小 . 
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4. 应 用 道 变换 f(z) 找 出 p 的 置信 区 间 
e? 一 1 e2 一 1 
(Sp SH) i 


找到 p 的 置信 区 间 的 另 一 种 方法 是 Bootstrap Wik. 


14.3 ”多 元 正 态 分 布 
如 果 一 个 向 量 X 的 概率 密度 函数 为 
Nam?) mn {i aan 


则 该 向 量 服从 正 态 分 布 , 记 为 六 ~ N(u, 2), 其 中 ,yp ERED k hii, DÈ kx k 
的 对 称 正定 矩阵 . W E(X) = 人 和 V(X) = X. 

14.2 定理 下 面 的 性 质 成 立 : 

1. 如 果 2 ~ N(0,1), X =p+5"2Z, A] X ~ N(u,Z). 

2. k X ~ N(p, £), | D-/?(X — u) ~ N(O,1). 

3. X X ~ N(p, 5), a 是 入 一样 长 的 向 量 , 则 aTX ~ N(aTu, aT 5a). 

4A 

V=(X—p)TE"(X - p), 

则 V ~ x2. 

14.3 定理 RESDA N(u,Z) 中 柏 取样 本 量 为 n HHA, ARURHK(HK 
#5 u, D KRAGEK) A 


Uu 2) = -3A -pTI — y) - 3tr(273) — Flog |Z. 


极 大 似 然 估计 为 
g=X, B= zs, (14.8) 


14.4 多 项 分 布 


首先 回顾 一 下 多 项 分 布 . 数据 的 形式 为 X = (Xi,… , Xr), 其 中 , 每 个 X; 是 一 
个 计数 . 考虑 不 放 回 的 从 一 个 坛子 里 抽取 n 个 球 , 坛 里 的 球 有 大 HAE. 在 这 个 例 


子 中 , X; 是 第 j 种 颜色 的 球 的 个 数 . 令 p= (pl … ,pk), 这 里 p 20, S07; = 1, B 
j=l 
设 pj 是 抽 到 第 7 种 颜色 的 球 的 概率 . 
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14.4 定理 4 X ~ Multinomial (n,p). 则 Xj 的 边际 分 布 为 X ~ Binomial(n, 


Pi). X 的 均值 和 方差 为 
np1 
Ex)=| : 
NPk 


和 
mpi(l—pi) npps =- —npipe 
v —npip2 — mpa(1—p2) …  —npapk 

一 PPIDK 一 npapk >> mpk(1 一 pk) 


证 明 ”很 容易 知道 Xj ~ Binomial(n,pj)， 因 此 , E(Xj) = np; 和 V(Xj) = 
npi(l — Pj), 计算 Cov(Xi,Xi) 如 下 由 于 Xi +X; ~ Binomial(n, pi + p;), 所 以 
V(X: + Xj) = n(pi + p;)(1 一 pi 一 pj). 另 一 方面 ， 


V(Xi+ Xj) = V(Xi) + V(X;) + 2Cov(Xi, Xj) 
= npi(1 — pi) + np;(1 — pj) + 2Cov(Xi, Xj). 


令 最 后 一 个 表达 式 等 于 n(pi +pj)(1 — pi 一 pj), 可 以 得 到 Cov(Xi， Xj) = —npip;. 
14.5 定理 p 的 极 大 似 然 估 计 为 


x X 
ae *% |_x 
Peli y=] i pas. 

De Xe 

n 


证 明 ”对 数 似 然 函数 (忽略 常数 ) 为 
k 
tp) = DX logp;. 
j=l 


当 最 大 化 4 时 必须 要 小 心 , 这 是 因为 必须 强加 一 个 条 件 Dip; = 1. 使 用 拉 格 朗 日 乘 
了 
数 法 , 转化 为 使 得 下 面 的 等 式 最 大 : 


k 
Alp) = J Xjlogp; +A (=> = ) . 
j=l 了 
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注意 
Alp) _ X; 
m PTA 


g PA) Lo ASIB = -X/A hF Yny = 1 TORBIA = =n BEO P = Xafa 
z j 

成 立 

现在 想 知道 极 大 似 然 估计 的 方差 . 可 以 直接 计算 五 的 方差 矩阵, 或 者 可 以 通过 


计算 Fisher 信息 矩阵 来 近似 得 到 极 大 似 然 估计 的 方差 . 在 此 情形 下 ， 这 两 种 方法 得 
到 相同 的 答案 . 直接 求 的 方法 很 容易 : VO) = V(X/n) =n-*V(X), 所 以 


1 
Ve) = 5%, 
其 中 ， 
pi(l—pi) -pp >U 一 PPk 
-Ppa pall — pa) er Ts 
—P1Pk 一 pzpk = Pk(l— pk) 


对 于 足够 大 的 n, P EURAS TESI. 
14.6 定理 4 nc 时 ， 


vnl- p) ~ N(0, 2). 


14.5 文献 注释 


多 变量 分 析 的 参考 书 有 (Johnson and Wichern, 1982; Anderson, 1984). 本 章 中 
构造 相关 系数 置信 区 间 的 方法 是 由 Fisher(1921) 提出 的 . 


146 附 录 
定理 14.3 的 证 明 用 X 表示 第 i 个 随机 向 量 . 对 数 似 然 函数 为 


eu, 5) = Do F(X m2) 
i=l 


k n low Pe 
= -F log(27) — Flog | — 3 D(X’ = TE =: 
i=1 


<A 
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DET = DUO D+ + 


i=l 


= pe -RTE Xi- X) +n(® - u) TE- (X - p). 


i=1 


由 于 DOC- X)T EX! —X) =0, 同 时 由 于 (X -TIX — u) 是 一 个 标量 ， 
i=l 
所 以 


DK = WPS XE — u) = DO t(x — uT I-X — p) 
i=l i=1 
= Yo r(271(xt — p)(x* — p)7) 
i=1 


= (S (Xt Xn) 
i=l 
= ntr(X7!8S), 


所 以 结论 成 立 . 


14.7 习 题 


证 明定 理 14.1. 

求 出 多 项 分 布 的 Fisher 信息 矩阵 . 

. (计算 机 试验 ) 写 出 一 个 函数 , 从 Multinomial(n, p) 分 布 中 生成 nsim 观测 . 
(计算 机 试验 ) 写 出 一 个 函数 , 从 均值 为 和 方差 矩阵 为 D 的 多 元 正 态 分 布 中 
生成 nsim 观测 . 

(计算 机 试验 ) 从 N(u, ©) 中 生成 100 个 随机 向 量 , 其 中 ， 


3 11 
C) (i) 
画 出 随机 样本 的 散 点 图 .估计 均值 和 协 方差 阵 D. 求 出 X 和 Xo 的 相关 系数 
p, 把 它 和 随机 抽取 的 样本 相关 系数 比较 . RH p 的 95% 的 置信 区 间 . 用 两 种 方 


法 : Bootstrap 和 Fisher 方法 . 并 作 比 较 . 
(计算 机 试验 ) 重复 前 面 的 练习 1000 次 . 比较 p 的 两 个 置信 区 间 的 收敛 性 . 


Beye 


有 


S 
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本 章 将 解决 下 面 的 问题 : 

(D 如 何 检验 两 个 随机 变量 是 独立 的 ? 

(2) 如 何 估计 两 个 随机 变量 的 依赖 程度 ? 

当 工 和 2 不 独立 时 , 就 说 它们 互相 依赖 或 有 关联 或 相关 . 如 果 Y 和 Z 相关 时 ， 
它 并 不 意味 着 Y FAT Z RAZ 导致 了 Y. 因果 关系 在 第 16 HIT. 

HREH YIX 表示 Y 和 2 是 独立 的 , 用 Yom 表示 Y 和 2 是 相互 依 
HHY. 


15.1 两 个 二 值 型 变量 


假设 Y 和 2 都 是 二 值 型 的 , 考虑 数据 (六 ,21),… , (Yn, Zn). 可 以 用 2x2 的 交 
叉 列 联 表 来 表示 : 


Y=0 Y=1 
Z= Xoo Xoi Xo. 
Z=1 Xo Xu x. 
Xo Xa n=X.. 


其 中 ， 
XgRRY Y =i,2 = j 时 观测 的 个 数 . 


脚 标 “.” 表 示 总 和 . 因此 ， 
X= Xi XG= Xy, n=X.= DXy. 
j i ij 


这 个 命名 规则 在 本 书 接 下 来 的 部 分 都 是 一 致 的 . 对 应 的 概率 为 


Y=0 Y=1 
Z= Poo Por Po- 
Z= Pio Pu Pie 
Po Pa 1 


其 中 , pij = P(Z = iY = j). & X = (Xoo, Xor, X10, Xu) 表示 计数 的 向 量 , 则 X ~ 
Multinomial(n, p), 其 中 , p = (poo, Por, Pio, pn). 很 容易 引入 下 面 的 两 个 新 的 参数 . 


15.1 定义 ”优势 比 定义 为 


= Poor | (15.1) 
PoiPio 
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对 数 优势 比 为 
= log(¥)- (15.2) 


15.2 定理 下 述 命题 等 价 : 
1.YIIZ. 
2.y~=1. 
3. y=0. 
4. AF ij € {0,1}, 有 pij = Pi-P-j- 
考虑 检验 
Ho: Y[[Z 对 H : YZ. (15.3) 


首先 考虑 对 数 比 似 然 检 验 , 在 H F, X ~ Multinomial(n, p), RAUR A it 
p= X/n. 在 Ho F, 仍然 有 X ~ Multinomial(n, p), 但 得 到 的 有 限制 的 极 大 似 然 估 
计 是 在 py = mp 的 约束 条 件 下 计算 出 来 的 . 于 是 导致 了 下 面 的 检验 : 


15.3 定理 (15.3) 式 的 对 数 似 然 比 检验 统计 量 为 


T= 25 D Xu os (Fa =). (15.4) 


i=0 j=0 


在 Ho F, T ~ X93. 因此 , 渐 近 显著 性 水 平 为 a 的 检验 由 当 了 > x7. 拒绝 Ho 
得 到 . 


独立 性 的 另外 一 种 常用 检验 方法 是 Pearson 卡 方 检验 . 
15.4 定理 检验 独立 性 的 Pearson 卡 方 检验 统计 量 为 


U= Sy Fa Ba? (Xj = Bs" a. (15.5) 


i=0 j=0 


其 中 ， 
Xi.X5 
By =. 

在 Ho T, U > x2. 因此, 渐 近 显 著 性 水 平 为 a 的 检验 由 当 U > xa 拒绝 Ho 


得 到 . 


下 面 是 关于 Pearson 卡 方 检验 的 一 个 直观 感受 . 在 Ho F, Pij = PiP.j» 所 以 Pij 
在 Ho 下 的 极 大 似 然 估计 为 
Fe X 


Pij = BiB = are 
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因此 , 单元 格 (i,j) 的 期 望 观测 数 为 


Ey = ny = XiXj 
统计 量 U 比较 了 观测 数 和 期 望 数 . 
15.5 Ø) 下 面 的 数据 来 自 文献 (Johnson and Johnson, 1972), 是 关于 切除 扁桃 
体 和 霍 奇 金 病 的 数据 ?. 
RASH 没有 病 

切除 扁桃 体 90 165 255 

没有 切除 扁桃 体 84 307 391 

总 和 174 472 646 


希望 知道 切除 扁桃 体 和 霍 奇 金 病 是 否 有 关系 . 似 然 比 检验 统计 量 为 了 = 14.75, 
p {HA P(x? > 14.75) = 0.0001. x? 统计 量 为 UV = 14.96, p 值 为 P(x? > 14.96) = 
0.0001. 拒绝 独立 的 原 假设 , 得 出 切除 扁桃 体 和 和 霍 奇 金 病 有 关联 的 结论 ， 但 是 这 并 
不 表示 切除 扁桃 体会 导致 夫 奇 金 病 . 例如 , 假设 医生 给 病 得 最 严重 的 人 切除 了 扁桃 
体 , 切除 扁桃 体 和 霍 奇 金 病 的 关联 可 能 导致 下 面 的 结论 : 由 于 切除 了 扁桃 体 的 人 是 
病 得 最 严重 的 人 , 因此 很 可 能 得 更 严重 的 病 . 

也 可 以 通过 估计 优势 比 多 和 对 数 优势 比 Y 来 估计 关联 的 强 弱 . 

15.6 定理 fey 的 极 大 似 然 估计 为 

了 = FORE, 7 = tog’. (15.6) 


( 用 Delta 方法 计算 的 ) 渐 近 标准 差 为 


Sia) $ 1 1 1 
& = Jti tt 15.7, 
D Xoo o Xo Xu cn 


%(W) = PRA). (15.8) 
15.7 注 ” 对 于 小 样本 , 少 和 了 的 方差 会 很 大 . 在 这 种 情况 下 , 经 常 使 用 调整 后 

的 估计 
(Xoo + 1/2)(X1 + 1/2) (15.9) 


(Xoi + 1/2)(X10 + 1/2)’ 
另外 一 种 独立 性 的 检验 是 Wald 检验 , RE 7 = 0, 检验 统计 量 为 
二 
下 ) 
7 的 1 一 a 的 置信 区 间 为 了 土 zay2%(). 
© 这 个 数据 实际 来 自 一 组 病例 . 见 附录 关于 这 组 数据 的 解释 . 
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少 的 1-a 的 置信 区 间 可 以 用 两 种 方法 得 到 . 第 一 种 方法 , A Eza). 
第 二 种 方法 , HF Y= e, 可 以 用 


exp{7 + 2a/28(7)}. (15.10) 
第 二 种 方法 通常 更 精确 . 


15.8 例 “在 前 面 的 例子 中 ， 


90 x 307 
165 x 84 


b= = 1.99, 


并 且 
F = log(1.99) = 0.69. 
SFL a I AAT GPR. 了 的 标准 差 为 


Og aes 
Wald 检验 统计 量 为 W = 0.69/0.18 = 3.84, EAN p 值 为 P(|Z| > 3.84) = 0.0001, 和 
其 他 的 检验 一 样 . y 的 95% 的 置信 区 间 为 阿土 200.18) = (0.33, 1.05). y Ky 95% 的 置 
信 区 间 为 (e%33, e105) = (1.39, 2.86). 
15.2 ”两 个 离散 变量 


现在 假设 Ye {1,… ,了 和 Ze {1,… J} 是 两 个 离散 变量 数据 可 以 用 Tx J 
的 计数 表 表 示 ， 


Y=1 Y=2 Y=j Y=J 
Z=1 Xu X12 Xu X rA 
Z=i Xa Xiz Xy Xis xi 
Z=1 Xn Xn ‘ty, Xis x, 
Xa X2 s Xj y x 
其 中 ， 
Xi H Z=iY = j 时 的 观测 数 . 
考虑 检验 


Ho: Y[[Z 对 Ay: Yom. (15.11) 
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15.9 定理 (15.11) 式 的 似 然 比 检验 统计 量 为 


yy XyX.. 
= ry me Gz) : (15.12) 
在 原 假设 独立 性 成 立 的 前 拉 下 ,了 HARAT G HP, v= U- DU- D. 
Pearson 卡 方 检验 统计 量 为 


(15.13) 


在 Ho TF, U 近似 地 服从 x2 分 布 , HP, v= (- VU 一 


15.10 例 ”这 些 数据 来 自 文献 (Dunsmore et al., 1987). 根据 治疗 效果 和 组 织 - 


类 型 把 霍 奇 金 病人 分 为 几 类 . 
S Immm 
类 型 效果 很 好 部 分 效果 没有 效果 
LP 74 18 12 104 
NS 68 16 12 96 
LP 154 54 58 266 
LP 18 10 44 72 


PP 


x2 检验 统计 量 为 75.89, 自由 度 为 2x 3 = 6. p {H POG > 75.89) ~ 0. 似 然 比 检验 
统计 量 为 68.30, 自由 度 为 2x 3 = 6. p 值 为 P(X8 > 68.30) ~ 0. 因此 有 充分 的 证 据 
说 治疗 效果 和 组 织 类 型 是 有 关联 的 


15.3 ”两 个 连续 变量 


现在 假设 Y 和 2 都 是 连续 的 . 如 果 假设 Y 和 了 的 联合 分 布 是 二 元 正 态 分 布 ， 
那么 用 相关 系数 p 来 衡量 Y 和 2 之 间 的 依赖 性 . 正 态 分 布 情况 下 的 p 的 检验 、 估 
计 和 置信 区 间 都 在 前 面 一 章 的 第 14.2 节 中 讲述 了 . 如 果 不 假设 正 态 性 , 仍 可 以 用 
14.2 节 中 的 方法 来 做 关于 p 的 推断 . 然而 , 如 果 结论 是 p = 0, 就 不 能 说 Y 和 Z 是 
独立 的 , 只 能 说 它们 是 不 相关 的 . 然而 反 过 来 是 正确 的 , 如 果 得 出 结论 说 和 2 是 
相关 的 , 则 可 以 说 它们 是 有 依赖 关系 的 . 


15.4 连续 变量 和 离散 变量 


假设 Ye {1,… ,了 } 是 离散 的 , Z 是 连续 的 . 令 Fi(z) = PZ < aY =i) 表示 在 
Y =i 条 件 下 2 的 累积 分 布 函 数 . 


WU ŘŘ— 
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15.11 定理 SY € {1,… ,J} 是 离散 的 , Z 是 连续 的 ， 则 YIIZ 当 且 仅 当 
R=...=F. 
从 前 面 的 定理 可 知 , 为 了 检验 独立 性 , 需要 检验 


Ho: Fi =---=Fy 对 Hy: 4EH. 


为 了 简单 起 见 , 考虑 工 = 2 的 情况 . 检验 原 假设 F = Fo, 使 用 两 样本 的 Kolmogorov- 
Smirnov 检验 . $ ni 表示 Yi = 1 的 观测 数 , 令 na 表示 Yi = 2 的 观测 数 . 令 


Ae) = EDZ < a =1), 
i=l 
以 及 p 
Fe) = D2 < DIY =2) 
i=l 
分 别 表示 给 定 Y = 1 和 Y =2 时 Z 的 经 验 分 布 函数 , 定义 检验 统计 量 为 
D = sup|Fi(2) - F(z). 
15.12 定理 4 z 
H(t) =1 -25 (1) e72, (15.14) 
j=1 
在 原 假设 Fy = Fy 成 立 的 前 提 下 ， 
lim P (yp < ‘) =H), 


所 以 由 定理 可 以 得 到 显著 性 水 平 为 a 的 Ho 的 拒绝 域 为 


mine 


Hipp 
Em > H-a) 


拒绝 Ho. 


15.5 Bt 录 


解释 优势 比 ” 假 设 事件 A 的 概率 为 P(4). 4 的 odds 定 义 为 odds(4) = P(A)/(1— 
P(A), 所 以 P(A) = odds(A)/(1 + odds(A)). 令 殖 表 示 某 人 接触 了 某 些 东西 (如 抽 
烟 、 辆 射 等 ), O D 表示 得 病 的 事件 . 在 接触 了 已 的 情况 下 得 病 的 odds 为 


odds(D|E) = P(D|E)/(1 — P(D|E)). 
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没有 接触 E 的 情况 下 得 病 的 odds 为 
odds(D|E*) = P(D|E*)/(1 — P(D|E*)) 


优势 比 定义 为 

4% = odds(D|E)/odds(D|E*). 
WR Y= 1, 则 不 管 是 接触 和 没有 接触 E, 得 病 的 概率 是 一 样 的 . 说 明 这 些 事件 是 独 
立 的 . 回想 起 对 数 优势 比 定义 为 = log(). 独立 性 对 应 于 y= 0. 


考虑 下 面 的 概率 表 和 对 应 的 数据 表 : 
De D DE D 
Ee Poo Por E Xoo Xor Xo 
E Pio pu E Xio Xu xX 
了 .0 P- X.o Xa xX. 
现在 ， i 
= 11 =: 1 
P(DIE) = Pio+ Pu HH (DIB) Poo + Po’ 
所 以 
odds(D|E) = Pa 并 且 odds(D|E*) = 722, 
Pio Poo 
因此 ， 
an Pupo 
PoiP10 


为 了 估计 参数 , 必须 首先 考虑 数据 是 如 何 搜集 的 . 这 里 给 出 了 三 种 方法 . 
多 项 式 抽样 ”从 总 体 中 抽取 一 个 样本 , 对 于 每 一 个 人 , 记录 下 他 们 是 否 接触 了 某 
些 东西 和 是 否 得 病 的 状态 . 在 这 种 情况 下 , X = (Xoo, Xor, X10, X11) ~ Multinomial(n, 
p). 然后 , 用 Big = zi;/n 来 估计 表 里 的 概率 , 所 以 
PuPoo _ XuX00 
Poro XolXao 
前 瞻 抽 样 (Cohort 抽样 ) ”有 一 些 接触 和 没有 接触 某 类 东西 的 人 , 数 出 每 一 组 
中 得 病 的 人 数 . 因此 ， 


六 = 


Xo ~ Binomial(Xo., P(D|E*)), 
X11 ~ Binomial(X1.,P(D|B)). 


实际 上 应 该 写 zo. 和 z1., 而 不 是 Xo. 和 Xi.. 在 这 个 例子 中 , 这 些 是 固定 的 , 而 不 是 
随机 变量 , 但 为 了 标示 简单 , 仍旧 用 大 写字 母 . 可 以 估计 P(DIE) 和 P(DIE*), 但 是 
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并 不 能 估计 表 中 所 有 的 概率 . 仍然 可 以 估计 v, AX v È PDE) 和 P(DIE*) 的 函 
数 . 现在 


B(D|E) = $e, P(D|E*) = 
因此 ， 
et X11X00 
Xo1X10” 
这 和 上 面 的 方法 一 样 . 


回顾 抽样 ”有 一 些 得 病 和 没有 得 病 的 人 , 观察 他 们 中 间 有 多 少 人 曾经 接触 了 
某 类 东西 . 如 果 得 病 是 稀有 事件 的 话 , 这 种 方法 更 有 效 . 因此 ， 


Xio ~ Binomial(X o, P(D|E*)), 
Xu ~ Binomial(X.1,P(D|E)). 


根据 这 些 数据 , 可 以 估计 P(B|D) 和 P(E|D®). 让 人 惊讶 的 是 , 人 们 仍 可 以 估计 Y. 
下 面 说 明 原因 , 由 于 


P(E|D) = 一 Pa _，1-P(BID)= 一 Pol odds(E|D) = 244. 
Poi + Pir 1 + Pir Poi 


类 似 地 , 有 
odds(E|D°) = 222, 
Poo 


因此 ， 
odds(E|D) — Pupo _ 


odds(E|D°) popio 
根据 这 些 数据 , 得 到 下 面 的 估计 : 


Pap- Șt, 1- Pep) = 32, BED) = Ho, aep) = 2 
因此 ， 
5 = XoXu 
Xo X10" 


所 以 三 种 不 同 的 数据 搜集 方法 , % 的 估计 是 一 样 的 . 

尝试 估计 P(D|E) — P(D|E*). 在 对 回顾 抽样 中 , 这 个 量 不 能 估计 . 为 了 说 明 这 
一 点 , 应 用 贝 叶 斯 定理 来 得 到 
P(EID)P(D) _ P(ES|D)P(D) 


P(D|E) - P(D|E*) = PE) PES 


由 于 采集 数据 的 方法 , P(D) 不 能 根据 数据 估计 . 然而 , 可 以 估计 = P(D|E)/P(DIE®), 
这 称 为 在 稀有 病例 假设 下 的 相对 风险 . 
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15.13 定理 4 € = P(D|E)/P(D|E*), 则 当 P(D) 一 0 时， 
4 


二 一 1. 


é€ 


因此 , 在 稀有 病例 的 假设 下 , 相对 风险 近似 等 于 优势 比 , 正如 已 经 说 明 的 , 可 以 
估计 优势 比 . 


15.6 J 题 


证 明定 理 15.2. 
证 明定 理 15.3. 
证 明定 理 15.6. 
《纽约 时 报 》(2003 年 1 月 8 H, A12 版 ) 公布 了 了 判 死刑 和 种 族 的 数据 , 来 自 
Maryland 的 研究 ?: 


a E N 


判 死 刑 ”没有 判 死刑 
黑人 罪犯 14 641 
白人 罪犯 62 594 


用 这 一 章 的 工具 分 析 这 个 数据 , 并 解释 结果 . 根据 这 个 信息 , 并 不 能 得 出 因果 关 
系 , 为 什么 ? 说 明理 由 . (研究 者 在 整 篇 报告 中 确实 用 到 了 更 多 的 信息 . ) 
.分 析 来 自 http://lib.stat.cmu.edu/DASL/Datafiles/montanadat.html 的 数据 , Bt 
究 年 龄 和 财务 状况 这 两 个 变量 之 间 的 关系 . 
. 用 来 自 http://lib.stat.cmu.edu/DASE/Datafiles/USTemperatures.html 的 数据 , fti 
计 温 度 和 纬度 的 关系 . 用 相关 系数 . 给 出 估计 、 检验 和 置信 区 间 . 
用 来 自 http://lib.stat.cmu.edu/DASL/Datafiles/Calcium.html 的 数据 , 来 检验 血 
压 中 钙 的 摄 入 和 流失 是 否 有 关联 . 


a 


2 


n 


© 这 里 的 数据 是 用 文章 中 的 信息 改编 的 
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粗略 地 讲 ,，“XX 导致 Y” 的 说 法 意味 着 改变 X 值 , Y 值 也 会 跟着 改变 . 一 般 来 
说 , 当 义 导致 Y 时 , X A Y 是 有 关联 的 ,但 是 反之 不 成 立 . 有 关联 并 不 一 定 表示 有 
因果 关系 . 将 从 两 个 框架 来 考虑 因果 . 第 一 种 用 反 事 实 随机 变量 ; 第 二 种 , 在 下 一 章 
讲述 , 用 有 向 非 循环 图 . 


16.1 反 事 实 模型 


假设 X 是 二 值 型 的 处 理 变量 , 这 里 X = 1 表示 “处 理 ”, X = 0 表示 “没有 处 
理 ”. 在 一 个 非常 广 的 范围 内 使 用 “处 理 ” 这 个 词 . 处 理 可 以 指 某 种 医药 治疗 或 抽烟 
等 类 似 的 事 . 替代 “处 理 ” 或 “没有 处 理 ” 的 说 法 是 “接触 或 没有 接触 ”, 将 用 前 者 
的 表达 方式 . 

令 了 是 某 一 结果 变量 , 如 得 病 或 没 得 病 . 为 了 区 分 “X 和 Y 有 关联 * 和 “X 导 
致 了 Y” 的 说 法 , 就 需要 扩充 概率 词汇 . 特别 是 , 将 会 把 响应 变量 Y 分 解 为 一 个 更 
细致 的 对 象 . 

下 面 介 绍 两 个 新 的 随机 变量 ，(Co, C1) 称 为 潜在 结果 , 解释 如 下 : Co 是 事物 没 
有 处 理 (X = 0) 的 结果 , Ci 是 事物 有 处 理 (X = 1) 的 结果 . 因此 ， 


ya f Co WRX =0, 
LG, mẸxX=1. 
可 以 用 Y =Cx (16.1) 
来 更 精确 地 表达 Y 和 (Co, Ci) 的 关系 . BX (16.1) 称 为 相 容 关系 . 
有 一 组 玩具 数据 可 以 把 这 个 思想 描述 的 得 更 清晰 : 


x Y Co 


ree Hlo ooo 
eee elo Ve 
oom wl se e fQ 


o wa wfo ns e 


BS * 表示 观测 缺失 . 当 X = 0 时 , 没有 观测 到 Ci, 在 这 种 情况 下 , 就 说 Ci 是 反 事 
实 的 , 这 是 因为 , 它 是 被 处 理 (X = 1) 时 才 会 出 现 的 结果 . 类 似 地 , 4 X = 1 时 , 不 
观测 Co, 称 Co 是 反 事实 的 . 有 4 种 类 型 的 研究 对 象 : 


16.1 反 事实 模型 197 


Co Cı 


a 

活 1 1 

应 0 1 

应 1 0 

T 0 0 

把 潜在 的 结果 (Co, C1) 看 作 是 隐 变 量 , 它们 包含 了 所 有 与 主题 相关 的 信息 . 
定义 平均 因果 效应 或 平均 处 理 效 应 为 


0 =E(C1) — E(C). (16.2) 


参数 O 的 解释 如 下 : 9 是 每 个 人 都 被 处 理 (X = 1) 的 均值 减 去 每 个 人 都 没有 被 处 理 
(X = 0) 的 均值 . 有 4 种 方法 可 以 度量 因果 效应 . 例如 , 如 果 Co 和 C1 是 二 值 型 的 ， 
可 以 定义 因果 优势 比 

P(C =1) , P(Co=1) 

P(C; =0) ` P(Co=0)’ 


以 及 因果 相对 风险 为 
P(C = 1) 
P(o = 1)" 
不 管 使 用 哪 种 因果 效应 , 主要 的 思想 都 是 相同 的 . 为 简单 起 见 , 应 该 从 平均 因果 效应 
0 出 发 
定义 关联 为 


a=EY|X=1)—EYIX=0). (16.3) 


如 果 需 要 的 话 , 可 以 使 用 优势 比 或 其 他 的 汇总 统计 量 . 
16.1 定理 (关联 不 是 因果 ) ”一 般 来 说 , 0 天 ar. 
16.2 例 ”假设 总 体 如 下 : 


----loooolx 
-o-ooool< 
o 
Q 


同样 , BS * 表示 没有 观测 到 的 值 . 由 于 每 一 个 研究 对 象 , Co = Ci, 因此 , 这 个 
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处 理 没有 效应 . 事实 上 ， 


4 = E(C) - E(Co) = ou D 
i=0 


0+0+0+0+1+1+1+1 04+04+04041414141 
= 8 8 


= 0. 


因此 , 平均 因果 效应 为 0. 观测 到 的 数据 只 有 X 和 了 的 , 根据 它们 , 可 以 估计 关联 


a = E(Y|X = 1) -E(¥|X =0) 
1+1+1+1 0+0+0+0_ 
= cero 


因此 , 0A a. 

给 这 个 例子 增加 一 些 直观 说 明 , 想象 如 果 “ 健 康 ” 结果 变量 为 1, 如 果 “ 生 病 ， 
结果 变量 为 0， 假 设 X = 0 表示 研究 对 象 没有 服用 维生素 C, X = 1 表示 研究 
对 象 确实 服用 了 维生素 C. 由 于 对 于 每 一 个 研究 对 象 Co = Ci, 所 以 维生素 C 没 
有 因果 效应 .在 这 个 例子 中 , 有 两 种 类 型 的 人 , 健康 的 人 (Co, C1) = (1,1), 不 健康 
的 人 (Co, C1) = (0,0). 健康 的 人 倾向 于 服用 了 维生素 C 而 不 健康 的 人 没有 . 正 是 
(Co, Ci) 入 的 关联 创造 了 X A Y 的 关联 . 如 果 只 有 X ALY 的 数据 , 会 得 出 结 
论说 X A Y 是 关联 的 . 假如 错误 地 解释 了 这 种 因果 关系 , 会 得 出 结论 说 维生素 C 
预防 了 疾病 . 接 下 来 , 就 可 能 鼓励 每 个 人 都 服用 维生素 C. 如 果 绝 大 多 数 人 都 同意 
这 样 的 建议 , 那么 总 体 就 会 如 下 : 
ES 


< 


x 
0 
1 
1 
1 
1 
1 
1 
1 


-~---rloooo 
o 
Q 
> 


现在 , a = (4/7) — (0/1) = 4/7. 会 看 到 a 从 1 KERI 4/7. 当然 , 因果 效应 不 会 改变 ， 
但 是 没有 区 分 关联 和 因果 , 天 真 的 观测 者 可 能 就 会 疑惑 了 , 因为 他 的 建议 没有 让 事 
情 变 好 反而 变 坏 了 . 

在 上 一 个 例子 中 , 9 = 0 和 a = 1. 要 构造 一 个 a > 0 而 9 < 0 的 例子 并 不 难 . 
可 以 有 不 同 的 符号 的 关联 和 因果 让 很 多 人 都 感到 疑惑 . 
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下 面 的 例子 将 会 说 明 这 一 点 , 一 般 来 说 , 不 能 用 关联 来 估计 因果 效应 9. 9 Aw 
的 理由 是 (Co, Ci) 和 X 不 独立 . 也 就 是 说 , 处 理 的 分 配 和 人 的 类 型 不 独立 . 

可 以 估计 因果 效应 吗 ? 答案 是 : 有 时 可 以 . 特别 地 , 随机 分 配 处 理 使 得 估计 9 成 
为 可 能 . 

16.3 定理 假设 随机 分 配 研究 对 象 给 处 理 , P(X =0)> 0 f P(X =1)>0. 则 
a=0. 因此 , a 的 任意 一 致 估计 就 是 9 的 一 致 估计 . 特别 地 , 一 个 一 致 估计 为 


0 = E(Y|IX=1)-E(Y|X =0) 


是 0 的 一 致 估计 , HP, 


12 pe 1 
Y,=— > Xs ares (1 — Xi 
a 各 YXi, Yo 2 Yı(1 — Xi), 


m= Dx 以 及 n=) (1- Xi). 
证 明 由 于 X 是 随机 分 配 的 ， X 独 立 于 (Co, Ci). At, 
0 = E(C1) — E(Co) 
= E(Ci|X = 1) — E(Co|X = 0), (H FX I (Co, C1)) 
= E(Y|X =1)- E(Y|X =0)，( 由 于 Y = Cx) 
=a. 


一 致 性 根据 大 数 定律 得 到 . 
如 果 Z 是 一 个 协 变量 , 定义 条 件 因果 效应 为 
0: = E(C1|Z = z) —E(Co|Z = 2). 
例如 , 如 果 2 表示 性 别 , 其 中 , 2 = 0 表示 女性 , Z = 1 表示 男性 , 则 b 是 女性 间 


的 因果 效应 , 91 是 男性 间 的 因果 效应 ， 在 一 个 随机 试验 中 , 9: = E(Y|X = 1,2 = 
2) — E(Y|X = 0,2 = z), 可 以 用 样本 均值 来 近似 估计 条 件 因 果 效 应 . 


反 事 实 模型 的 总 结 
随机 变量 ， (Co, C1, X,Y) 
相 容 性 关系 : Y = Cx 
因果 效应 : 9 = E(C1) — E(Co) 
关联 , a = E(Y|X = 1) - E(Y|X =0) 
随机 分 配 > (Co0,C1) UX + 0=a 
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16.2 超 二 值 处 理 


现在 来 推广 到 超 二 值 处 理 的 情况 . 假设 X x. 例如 , X 是 药 的 剂量 , 这 个 例 
FH XER 反 事实 向 量 (Co, C1) 现在 变 成 了 反 事实 函数 C(x), 这 里 C(x) 是 某 对 
象 接受 剂量 z 的 结果 . 观测 到 的 响应 变量 有 下 面 的 相 容 关系 : 


Y =C(X), (16.4) 
见 图 16.1. 
Y=C(X) 
x 
图 16.1 反 事 实 函数 C(z) 
结果 Y 是 曲线 C(z) 在 剂量 X 上 的 观测 值 
因果 回归 函数 为 


A(x) = E(C(z)). (16.5) 
回归 函数 度量 了 关联 , 即 , r(x) = E(Y|X = z). 
16.4 定理 ”一般 来 说 , O(c) #r(z). 然而 , 当 六 是 随机 分 配 的 时 , O(c) = rz). ~ 
16.5 例 ”有 这 样 一 个 例子 , 9(z) 是 常数 , 而 r(x) 不 是 常数 , 见 图 16.2. 这 个 图 
说 明了 四 种 研究 对 象 的 反 事实 函数 . 点 代表 它们 的 X 值 X, X2, Xs, Xa. 由 于 对 于 
所 有 的 i, Ci(z) 是 常数 , 就 没有 因果 效应 , 所 以 
on) = Ci(x) + C2(7) Cs(z) + Ca(z) 


是 常数 .改变 剂量 z 不 会 改变 任何 研究 对 象 的 结果 . 下 面 一 张 图 的 点 表示 观测 到 
的 数据 点 Ya = C1(X1),Y2 = C2(X2),Y3 = C3(X3),¥a = Ca(X4)， 点 线 表示 回归 
r(x) = E(Y|X = z). 尽管 不 存在 因果 效应 , 但 是 由 于 回归 曲线 7(z) 不 是 常数 , 所 以 
存在 关联 . 
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图 16.2 
上 面 的 图 显示 了 4 个 研究 对 象 的 反 事实 函数 C(z)， 点 代表 了 它们 的 X 值 ， 由 于 对 所 有 i,Ci(z) 
在 = 上 都 是 常数 ， 所 以 不 存在 因果 效应 ， 改 变 剂量 不 会 改变 结果 - 下 面 的 图 表示 了 因果 回归 函数 O(c) 一 
(Ci(z) + Ca(z) + Cs(z) + Ca(z))/4 4 个 点 表示 观测 到 的 数据 点 Yı = C1(X1),Y2 = C2(X2),Y3 = 
Ca(X3), Ya = Ca(Xa). 点 线 表示 回归 函数 r(z) = E(Y|X = z). 由 于 对 于 所 有 的 i, Ci(z) 都 是 常数 , 所 以 
不 存在 因果 关系 . 但 由 于 回归 曲线 r(z) 不 是 常数 , 所 以 存在 关联 
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如 果 一 个 研究 的 处 理 不 是 随机 分 配 的 , 则 这 个 研究 称 为 观察 研究 . 在 这 些 研究 
中 , 研究 对 象 选择 处 理 X 本 身 的 值 . 报纸 上 的 许多 健康 研究 都 和 这 一 样 . 正如 所 看 
到 的 , 一 般 来 说 关联 和 因果 可 以 相当 是 完全 不 同 的 . 这 种 分 歧 出 现在 非 随机 分 配 的 
研究 中 , 因为 潜在 的 结果 C 并 不 独立 于 处 理 XX. 然而， 假设 可 以 找到 事物 的 分 组 ， 
使 得 在 组 内 , X 和 {C(z) : z € X} 独立 . 事物 在 组 内 非常 相似 这 是 可 能 出 现 的 : 例 
如 , 假设 找到 一 群 年 龄 、 性 别 、 教育 背景 和 种 族 背 景 都 相似 的 人 . 在 这 些 人 中 , 假设 


I 
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X 的 选择 是 随机 的 , 这 看 起 来 比较 合理 . 其 他 的 变量 就 称 为 混淆 变量 . ”如 果 把 这 
些 其 他 变量 的 集合 记 为 Z, 则 可 以 用 下 面 的 式 子 表达 这 种 思想 : 


{C(2) : z € X}UX|Z. (16.6) 


等 式 (16.6) 说 明了 在 2 组 内 , 处 理 X 的 选择 不 依赖 于 由 {C(z) : ze X} 表示 的 类 
型 . 如 果 等 式 (16.6) 成 立 且 观测 到 Z, 则 说 明 不 存在 不 能 测量 的 混淆 变量 . 
16.6 定理 假设 等 式 (16.6) 成 立 , 则 


O(a) = | E(Y|X = 2, Z = z)dFz(z). (16.7) 
如 果 F(a, 2) 是 回归 函数 E(Y|X =z, Z = 2) 的 相 容 估计 , 则 g(z) 的 相 容 估计 为 
H(z) = ioe Zi). 


特别 地 , 如 果 r(x, z) = Bo + Bix + Boz 是 线性 的 , 则 Ol) 的 一 致 估计 为 
lz) = Bo + Aix + Zn, -(16.8) 


HP, (Bi, Ba, Ba) 是 最 小 二 乘 估计 . 

16.7 注 “比较 等 式 (16.7) M E(Y|X = z) 非常 有 用 , 这 里 E(Y|X = z) 又 可 以 
记 作 E(Y|X = z) = J E(Y|X = z, Z = 2z)dFzlx(z|z). 

流行 病 学 家 称 (16.7) 为 调整 的 处 理 效应 .计算 调整 的 处 理 效应 的 过 程 称 为 调 
整 混淆 或 控制 混淆 . 选择 度量 或 控制 何 种 混淆 需要 科学 的 洞察 力 . 即使 调整 了 一 些 
混淆 变 基 , 仍然 不 能 保证 是 否 错过 了 其 他 的 混淆 变 基 . 这 就 是 为 什么 对 观察 研究 持 
怀疑 的 态度 . 在 下 面 的 情况 下 , 观察 研究 的 结果 开始 变 得 可 信 : (i) 当 结 果 在 许多 研 
究 中 重复 出 现 , Gi) 每 个 研究 控制 了 可 能 的 混淆 变量 , (Gii) 有 一 个 可 能 存在 的 科学 解 
FE, 可 以 说 明 存在 因果 关系 . 

一 个 很 好 的 例子 就 是 吸烟 和 癌症 . 许多 研究 已 经 证 明了 吸烟 和 癌症 有 关系 , 甚 
至 是 控制 了 许多 混 清 变量 也 是 这 个 结论 . 而 且 在 试验 室 研究 中 , 已 经 证 明 吸烟 会 破 
坏 肺 细胞 . 最 后 , 在 随机 动物 试验 中 , 发 现 了 吸烟 和 癌症 的 因果 关系 . 由 多 年 搜集 到 
的 证 据 证 明了 这 是 确切 的 情况 . 单个 的 观测 研究 本 身 不 是 很 强 的 证 据 . 读 报纸 的 时 
候 可 以 记得 这 一 点 . 


16.4 Simpson 悖 论 


Simpson 悖 论 是 让 人 费解 的 现象 , 在 许多 统计 文献 都 有 讨论 . 遗憾 的 是 , 绝 大 多 
数 解释 都 是 有 疑惑 的 (有 些 是 不 正确 的 ). 理由 是 如 果 不 用 反 事 实 模型 (或 有 向 非 循 
环 图 ) 几乎 不 可 能 解释 这 个 悖 论 . 
© 关于 混淆 的 一 个 更 精确 的 定义 在 下 一 章 讲述 . 
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& X 是 二 值 处 理 变量 , Y 是 二 值 结 果 , 2 是 第 三 个 二 值 变量 , 如 性 别 . 假设 
XY, Z 的 联合 分 布 是 


Z 二 1( 男 性 ) Z = 二 0( 女 性 ) 
Y=1 Y=0 Y=1 Y=0 
X=1 0.1500 0.2250 0.1000 0.0250 
X=0 0.0375 0.0875 0.2625 0.1125 
(X,Y) 的 边际 分 布 为 
Y=1 Y=0 
x 0.25 0.25 0.50 
x 0.30 0.20 0.50 
0.55 0.45 1 


根据 这 些 表 , 可 以 求 出 


P(Y =1|X =1) -P(Y =1|X =0) =-0.1, 
PY =1|X =1,Z=1) -P(Y =1|X =0,Z = 1)=0.1, 
P(Y =1|X =1,Z =0) -P(Y =1|X =0,Z = 0) =0.1. 


将 上 述 结论 汇总 , 可 以 得 到 下 面 的 信息 : 


数学 表达 式 文本 语句 ? 

P(Y =1|X =1) < P(Y =1|X =0) 处 理 是 有 害 的 
P(Y =1|X =1,Z =1) > P(Y =1|X =0,Z=1) 处 理 对 男性 有 利 
PY = 1|X =1,Z =0) > P(Y =1|X =0,Z =0) 处 理 对 女性 有 利 


显然 , 有 些 东 西 错误 了 . 不 可 能 存在 这 样 一 种 处 理 , 它 对 男性 有 利 , 对 女性 有 利 ， 
对 总 体 又 不 利 . 这 是 没有 道理 的 . 问题 就 在 于 表 中 的 文本 语句 . 把 数学 表达 式 转化 
成 文本 语句 的 翻译 值得 怀疑 . 

不 等 式 P(Y = 1|X = 1) < P(Y = 1|X = 0) 并 不 意味 着 处 理 是 有 害 的 .“ 处 理 
是 有 害 的 ” 用 数学 表达 式 写 应 该 是 P(C = 1) < P(Co = 1). “处 理 对 男性 有 害 ” 应 
当 写 成 P(C1 = 1|Z = 1) < P(Co = 1|2 = 1). 表 中 的 3 个 数学 表达 式 一 点 也 不 矛盾 . 
只 是 翻译 的 过 程 出 了 错 . 

现在 来 证 明 真 正 的 Simpson 矛盾 不 可 能 出 现 , 也 就 是 , 可 能 存在 这 样 一 种 处 理 ， 
它 对 男性 有 利 , 对 女性 有 利 , 对 总 体 又 不 利 . 假设 一 种 处 理 对 男性 和 女性 都 有 利 . 则 
对 于 所 有 的 z, 有 

P(C1 = 1|Z = z) > P(C = 1|Z = z). 
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所 以 


P(C1=1) = JD P(C, = 112 = 2)P(Z = 2) 
> DP(Co = 1/2 = 2)P(Z = 2) 
= YP =1). 
因此 , P(C = 1) > P(Co = 1), 所 以 , 处 理 对 所 有 的 对 象 也 是 有 利 的 . 没有 矛盾 . 


16.5 文献 注释 


用 潜在 的 结果 澄清 因果 关系 主要 是 由 Jerzy Neyman 和 Donald Rubin 提出 的 . 
后 来 的 发 展 是 由 于 Jamie Robins, Paul Rosenbaum 和 其 他 人 . 在 计量 经 济 理论 中 也 
有 类 似 的 发 展 , 包括 James Heckman 和 Charles Manski 在 内 的 许多 人 都 有 贡献 . 关 
于 因果 关系 的 文献 包括 (Pearl, 2000; Rosenbaum, 2002; Spirtes et al., 2002; van der 
Laan, Robins, 2003). 


16.6 J 题 


. 创建 一 个 类 似 例 16.2 的 例子 , 使 得 a > 0,0 < 0. 

证 明定 理 16.4. 

假设 一 个 观察 研究 给 出 了 数据 (Xa, Yi) (Xn Yn), 其 中 , Xi € {0,1}, Yi € 
{0,1}. 尽管 不 太 可 能 估计 因果 效应 0, 但 可 能 找到 9 的 界 . 求 出 6 的 上 界 和 下 界 ， 
它们 可 以 根据 数据 相 容 估计 到 . 证 明 这 个 边界 的 宽度 为 1. 

Hem: E(C1) = E(Ci|X = 1)P(X = 1) + E(Ci|X = 0)P(X =0). 

假设 X ER, 对 于 每 一 个 对 象 i, 有 Ci(z) = bur. 每 一 个 对 象 自己 的 斜率 为 Bii. 
构造 (G1, X) 的 联合 分 布 , 使 得 P(B1 > 0) = 1, Æ E(Y|X = z) 是 r 的 递减 函 
数 , 这 里 了 = C(X). 并 给 出 解释 . 

令 Xe{0,1} 是 二 值 型 处 理 变量 , 令 (Co, C1) 表示 对 应 的 潜在 结果 . 令 Y = Cx 
表示 观察 到 的 响应 . 令 Fo 和 五 表示 Co 和 Cu 的 累积 分 布 函 数 . 假设 Fo M Fi 
是 连续 的 严格 递增 函数 . 令 9 = mi — mo, 这 里 mo = Fy (1/2) 是 Co 的 中 位 数 ， 
my = FY!(1/2) 是 Ci 的 中 位 数 . 假设 处 理 X 是 随机 分 配 的 . 求 出 9 的 表达 式 ， 
RER X AY 的 联合 分 布 . 


ene 


> 


p 
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171 引言 


一 个 有 向 图 是 由 一 系列 的 节点 及 连接 节点 的 有 向 边 组 成 的 . 图 17.1 给 出 了 一 
个 有 向 图 的 例子 . 


x 
图 17.1 WARY V = {X,Y,2} 且 边 集 为 E = {(Y, X), (Y, Z)} 的 一 个 有 向 图 


图 在 表示 变量 间 的 独立 性 关系 方面 是 很 有 用 处 的 , 还 可 以 用 来 代替 反 事 实 去 表 
示 因 果 关 系 . 一 个 被 赋予 某 种 概率 分 布 的 有 向 图 常 被 称 为 贝 叶 斯 网 络 . 这 是 在 术语 
贫乏 情况 下 的 一 个 选择 ， 频 率 学 派 或 贝 叶 斯 学 派 的 方法 都 可 以 用 来 对 有 向 图 进行 
统计 推断 , 所 以 贝 叶 斯 网 络 这 个 说 法 是 有 歧义 的 . 

在 进行 关于 有 向 非 循环 图 (DAGs) 的 讨论 之 前 , 需要 先 讨 论 一 下 条 件 独 立 性 . 


17.2 条 件 独立 性 


WTAE AX, Y 和 2 为 随机 变量 . 在 给 定 2 的 条 件 下 , X 和 了 称 为 条 件 
独立 的 , 记 作 XIY|Z, 如 果 下 式 对 于 所 有 的 ry 和 z 均 成 立 ， 


Jxrlz(z,glz) = fxız(z|z)fyiz(ylz)- (17.1) 


直观 地 讲 , 知道 了 Z, Y 并 没有 提供 关于 X 的 额外 信息 . 一 个 等 价 的 定义 为 
f(zly, z) = f(zlz). (17.2) 
条 件 独立 性 具有 一 些 基本 的 性 质 . 
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17.2 定理 TIARAA ARZ: 


XIYIZ > YIXIZ, 
XUY|ZLU=KX) > UIYI2， 
XUY|Z HU=h(X) > XUY((Z,U), 

XUY|ZBXUW|Y,Z) = XIU(W,Y)|Z, 
XIYIZ 且 XIZIY > XI(Y,Z). 


17.3 DAGs 


一 个 有 向 图 9 是 由 节点 集 Y 及 连接 一 对 有 序 节点 的 边 集 E 组 成 的 . 按照 想法 ， 
每 个 节点 对 应 一 个 随机 变量 . (X,Y) e E, 则 存在 一 条 有 向 边 从 X 指向 Y. 见 图 
17.1. 

若 一 条 有 周边 连接 两 个 随机 变量 六 和 了 ( 取 任意 一 个 方向 ), 就 称 X A Y ER 
接 的 . 若 一 条 有 向 边 从 X 指向 Y, 则 称 X 是 了 的 母 节点 , 而 Y 是 X 的 子 节点 . XX 
的 所 有 母 节点 的 集合 记 作 rx 或 (X). 两 变量 间 的 一 条 c 是 由 一 系列 的 同方 向 的 
有 向 边 构成 的 , 如 下 所 示 : 

di 


一 个 从 X 开始 至 Y 结束 的 邻接 节点 的 序列 , 但 是 忽略 其 有 向 边 的 方向 性 , 就 称 该 
序列 为 一 个 无 向 路 . 图 17.1 中 的 序列 X,Y, Z 就 是 一 个 无 向 路 . 若 存在 一 条 有 向 路 
WAX MÉ Y(R X = Y), WA X FEY 的 祖 节点 . 也 可 以 说 Y 是 XX 的 后 商 节 点 . 
如 下 形式 的 结构 : 
XYZ 


称 作 在 Y 处 相遇 . 不 具有 该 种 形式 的 结构 称 作 不 相遇 , 例如 ， 


x—Y—Z 


或 
X—Y— Z. 
相遇 的 性 质 是 依赖 于 路 的 . 在 图 17.7 中 , Y 是 一 个 在 路 X,Y, Z 上 的 相遇 , 但 不 是 在 
路 X,Y, W 上 的 一 个 相遇 . 当 指向 相遇 的 变量 不 是 邻接 时 , 就 说 该 相遇 是 无 保护 的 . 
一 条 开始 和 结束 都 在 同一 个 变量 处 的 有 向 路 是 一 个 圈 . 若 一 个 有 向 图 没有 图, 则 它 
是 非 循环 的 . 在 这 种 情况 下 , 称 这 种 图 为 一 个 有 向 非 循环 图 或 DAG. 以 后 只 考虑 非 
循环 图 . 
O 最 后 一 条 性 质 要 求 所 有 的 事件 都 具有 正 概率 的 假设 , 前 4 条 没有 此 要 求 . 
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17.4 概率 与 DAGs 


令 9 为 一 个 具有 节点 集 V = (Xi,… Xe) 的 DAG. 


17.3 定义 若 卫 为 Y 的 分 布 , 它 的 概率 函数 为 f, AÙ PRAT G 是 马尔 可 夫 
的 , 或 称 GRA P, SPARS: 


k 
fo) = TE feil), (17.3) 


i=l 
其 中 , Ti 为 Xi 的 母 节点 . 由 9 表示 的 分 布 集 记 为 M(G). 


17.4 例 图 17.2 给 出 了 一 个 具有 4 个 变量 的 DAG. 该 例子 中 的 概率 函数 可 
以 作 如 下 分 解 : 


SE, 吸烟 , 心脏 病 , 咳嗽) =f (超重 ) x 7( 吸 烟 ) 
x f( 心 脏 病 | 超重 , 吸烟 ) 
x f (咳嗽 | 吸烟 ). 


图 17.2 例 17.4 中 的 DAG 


17.5 例 ”对 于 图 17.3 中 的 DAG 来 说 , Pe M(9) 当 且 仅 当 其 概率 函数 f 具有 
以 下 形式 : 
f(z,y,z,w) = f(x) f(y) f(zlz,y)f(wlz). 


—<<— > jj 


图 17.3 另 一 个 DAG 
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下 述 定理 表明 Pe MG) 当 且 仅 当 马尔 可 夫 条 件 成 立 . 粗略 地 讲 , 马尔 可 夫 条 
件 意味 着 每 个 变量 W 在 给 定 其 母 节 点 的 情况 下 与 “过 去 ”是 独立 的 . 
17.6 定理 一 个 分 布 Pe M(9) 当 且 仅 当 下 面 的 马尔 可 夫 条 件 成 立 : 对 于 每 
个 变量 W， 
WwW | rw， (17.4) 


KP, WERT W OER REE TAA AMARRE. 
17.7 例 在 图 17.3 F, 马尔 可 夫 条 件 意味 着 


XUY A WU{X,Y}|z. 
17.8 Bl 考虑 图 17.4 中 的 DAG. 在 这 种 情况 下 , 概率 函数 分 解 如 下 : 
f(a,b, c,d,e) = f(a) f (bla) f (cla) f (dlb, c) f (eld). 


B 
A pd D> 
SS a 
图 17.4 另 一 个 DAG 


马尔 可 夫 条 件 意味 着 下 面 的 独立 性 关系 : 


DILA| {B,C}, EU{A,B,C}|D A BIC |A. 


17.5 更 多 的 独立 性 关系 


马尔 可 夫 条 件 使 得 可 以 从 一 个 DAG 中 列 出 一 些 独立 性 关系 . 这 些 关系 可 能 还 
列 涵 着 其 他 的 独立 性 关系 . 考虑 图 17.5 中 的 DAG. 马尔 可 夫 条 件 意味 着 : 


X, I X2, X20 {Xi, Xa}, Xs I Xal{X1,X2}, 
Xa II {X2, X3} | Xi, Xs W{Xi, X2} | {Xs, Xa}- 
这 些 条 件 意味 着 (虽然 并 不 明显 ) 


{X4, Xs} I X2 | {X1, X3}- 
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X: 


De 
a 
SZ 


图 17.5 再 一 个 DAG 


如 何 找到 这 些 额外 的 独立 性 关系 呢 ? 答案 是 “分 离 ”, 也 就 是 “有 向 分 离 ”". 有 
向 分 离 可 以 归 为 三 条 准 侧 . 考虑 图 17.6 中 的 四 个 DAG 和 图 17.7 中 的 DAG. 图 17.6 
中 的 前 三 个 DAG 没有 相遇 . 图 17.6 中 的 右 下 角 的 DAG 有 一 个 相遇 . 图 17.7 中 的 
DAG 是 一 个 具有 后 裔 节点 的 相遇 . 


x —> Y 一 一 > 2 x e v 所 一 一 2 
x e Y 一 一 > 7 X —> Y < 7 
图 17.6 前 三 个 DAG 不 具有 相遇 在 右 下 角 的 第 四 个 DAG 在 Y 处 具有 相遇 


X > y -二 一 2 


| 


wW 


图 17.7 具有 后 裔 节点 的 一 个 相遇 


有 向 分 离 准则 
考虑 图 17.6 和 图 17.7 中 的 DAG. 
1. YY 不 是 一 个 相遇 时 , X 和 2 是 有 向 连通 的 , 但 是 它们 在 给 定 Y 下 是 有 向 
分 离 的 . 
2. Æ X MZ 在 Y 处 相遇 , 则 X 和 2 是 有 向 分 离 的 ,但 是 它们 在 给 定 Y 下 是 有 
向 连通 的 
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3. 具有 后 裔 节点 的 相遇 与 一 般 的 相遇 具有 相同 的 结果 . 因此 , 在 图 17.7 中 , X 和 
Z 是 有 向 分 离 的 , 但 是 它们 在 给 定 W 下 是 有 向 连通 的 . 


这 里 给 出 关于 有 向 分 离 的 一 个 更 加 正式 的 定义 . 令 X MY 为 不 同 的 节点 , 且 
令 W 为 一 个 不 含 X RY 的 节点 集 . 则 X 和 了 在 给 定 W 下 是 有 向 分 离 的 , 若 不 
存在 X 和 并 之 间 的 无 向 路 U 使 得 : (i) 每 个 U 上 的 相遇 具有 一 个 W 中 的 后 裔 节 
A E (i) 在 世上 没有 其 他 的 W 中 的 节点 . 若 A, BA W 是 不 同 的 节点 集 且 A 和 
BARS, 若 对 于 每 个 XeW 和 Ye BX 和 YY 在 给 定 W 下 是 有 向 分 离 的 , 则 4 和 
B 在 给 定 W 下 是 有 向 分 离 的 . 不 是 有 向 分 离 的 节点 集 被 称 作 有 向 连通 的 . 

17.9 例 考虑 图 17.8 中 的 DAG. 从 有 向 分 离 准则 可 以 得 到 

X ALY 是 有 向 分 离 的 (在 给 定 空 集 的 条 件 下 ). 

X ALY 在 给 定 {51, 52} 是 有 向 连通 的 . 

X ALY ERE {51,.52,V} 的 条 件 下 是 有 向 分 离 的 . 


xX Ã—> UE y — V << 了 


| | 


Sı S: 
图 17.8 ”有 向 分 离 示 意 
17.10 定理 了” 令 4,B 和 C 为 互 不 相交 的 节点 集 , 则 AUB(|C 当 且 仅 当 A 
fo Bik C 有 向 分 离 . 
外 星人 手表 


Sw 


迟到 


图 17.9 Jordan 外 星人 例子 ( 例 17.11). 
你 的 朋友 是 被 外 星人 绑架 了 呢 ? 还 是 你 忘记 了 调整 手表 ? 


17.11 例 ”从 一 个 相遇 所 产生 的 独立 性 也 许 看 上 去 不 太 直观 . 这 里 给 出 Jor- 
dan(2004) 的 一 个 离奇 而 有 趣 的 例子 , 可 以 易于 接受 这 个 想法 . 你 的 朋友 和 你 见面 似 
PERT. 这 有 两 种 解释 : 她 被 外 星人 绑架 了 或 者 你 忘记 在 实行 夏令 时 期 间 把 你 的 
手表 向 前 调 一 个 小 时 (图 17.9). 外 星人 和 手表 被 一 个 相遇 所 阻挡 了 , 这 意味 着 它们 

© ARABE P 忠实 于 9, 即 P 除了 可 以 由 马尔 可 夫 条 件 逻 辑 地 推出 的 独立 性 关系 外 , 没有 其 他 的 独 
立 性 关系 
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是 边际 独立 的 . 这 看 起 来 是 合理 的 , 在 不 知道 与 你 的 朋友 迟到 有 关 的 事情 之 前 , 会 期 
望 这 些 变量 是 相互 独立 的 . 也 会 期 望 POEA = 是 | 迟到 = 是 ) > POEA = 是 ); 
得 知 你 的 朋友 已 经 迟到 一 定 会 增加 她 被 绑架 的 可 能 性 . 但 是 当 得 知 你 忘记 把 你 的 手 
表 设 定好 时 , 就 会 降低 你 的 朋友 被 绑架 的 可 能 性 . 因此 , POEA = 是 | 迟到 = 是 ) 关 
P( 外 星人 = 是 | 迟到 = 是 ,手表 = 否 ). 因此 , 外 星人 和 手表 在 给 定 迟 到 的 条 件 下 是 
相互 依赖 的 . 

17.12 例 ”考虑 图 17.2 中 的 DAG. 在 该 例子 中 , 超重 和 吸烟 是 边际 独立 的 但 
是 它们 在 给 定 心 脏 病 的 条 件 下 是 相互 依赖 的 . 

看 起 来 不 同 的 图 事实 上 可 能 表示 着 相同 的 独立 性 关系 . 若 9 是 一 个 DAG, 令 
T(G) 记 所 有 的 可 以 由 G 推出 的 独立 性 结论 . 若 T(9:) = IG), 则 对 于 同一 个 变量 
V 的 两 个 DAG: G1 和 G2 是 马尔 可 夫 等 价 的 . 给 定 一 个 图 9, 令 骨 架 (9) 表示 用 无 
向 边 替 换 有 向 图 中 有 向 边 后 得 到 的 无 向 图 . 

17.13 定理 ”两 个 DAGs 91 和 G 是 马尔 可 夫 等 价 的 , 当 且 仅 当 (i) 骨架 (Gi) = 
HR (Go), 且 (ii) Gi 和 Go 有 相同 的 无 保护 的 相遇 . 

17.14 例 图 17.6 中 的 前 三 个 DAGs 是 马尔 可 夫 等 价 的 . 右 下 角 的 DAG 与 图 
中 其 余 的 DAGs 不 是 马尔 可 夫 等 价 的 . 


17.6 DAGs 的 估计 


在 DAGs 中 有 两 个 首先 要 考虑 的 估计 问题 . 第 一 , 给 定 一 个 DAG 9 和 来 自 与 
G 相符 的 分 布 为 了 的 数据 Vi,… ,V2, 如 何 去 估 计 f? 第 二 , 给 定数 据 Vi,… ,V2, 又 
如 何 去 估 计 9? 第 一 个 问题 是 一 个 纯粹 的 估计 问题 , 而 第 二 个 问题 则 涉及 到 模型 的 
选择 . 这 些 都 是 非常 复杂 的 问题 且 超 出 了 本 书 的 范围 . 这 里 仅 简 要 介绍 其 主要 思想 . 

通常 , 对 于 每 个 条 件 密度 , 人 们 常 选择 用 某 个 参数 模型 f(z|rz; 2), 则 其 似 然 函 
数 为 


£00) = J] FV) = JI TY f(x;;0;), 
i=l i=l j=1 
其 中 ，Xi 是 对 于 第 i 个 数据 点 的 X; 的 值 , 9; 是 第 j 个 条 件 密度 的 参数 . 这 样 就 可 
以 通过 极 大 似 然 方法 来 估计 参数 . 

为 了 估计 DAG 自身 的 结构 , 几乎 可 以 通过 极 大 似 然 方法 来 估计 每 个 可 能 的 
DAG, 且 用 AIC( 或 其 他 的 方法 ) 来 选择 一 个 DAG. 然而 , 存在 很 多 可 能 的 DAGs, 所 
以 需要 很 多 数据 来 确保 该 方法 是 可 靠 的 . 而 且 , 从 所 有 可 能 的 DAGs 中 搜索 是 一 个 
相当 大 的 计算 上 的 挑战 . 对 于 一 个 DAG 结构 产生 一 个 有 效 的 精确 的 置信 集 可 能 需 
要 天 文 数字 般 的 样本 容量 . 若 知道 关于 DAG 结构 的 部 分 先 验 信息 , 计算 和 统计 上 
的 问题 至 少 可 以 部 分 地 改善 
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17.7 文献 注释 


有 很 多 关于 DAGs 的 文献 包括 Edwards(1995) 和 Jordan(2004)， 第 一 个 用 
DAGs 来 表示 因果 关系 的 是 Wright(1934)， 一 些 现代 的 论述 包含 在 文献 (Spirtes 
et al, 2000) 和 (Pearl, 2000) 中 . Robins 等 (2003) 讨论 了 从 数据 中 来 估计 因果 结构 
的 问题 . 


17.8 附 录 


再 论 因果 关系 . 第 16 章 用 反 事实 随机 变量 的 想法 讨论 了 因果 关系 . 用 DAGs 来 
讨论 因果 关系 是 另外 一 种 不 同 的 途径 . 这 两 种 方法 虽然 看 起 来 很 不 相同 , 但 是 它们 
在 数学 上 是 等 价 的 . 在 DAG 方法 中 , 额外 的 东西 就 是 干预 的 想法 . 考虑 图 17.10 中 的 
DAG. 与 该 DAG 相符 的 分 布 的 概率 函数 具有 形式 f(z,y,z) = f(z)f(y|z)f (ele, y). 
下 面 是 从 该 分 布 产生 随机 数 的 伪 代 码 : 


X m 一 一 > 7 
图 17.10 条件 与 干预 
for i=1,---,n 
Ti px (zi) 
Yi 一 Prix (Yi lzi) 
Zi Pajx,y (Zil£i, y). 
假设 重复 该 代码 很 多 次 , 产生 数据 (z1,y1, z1),… , (Tn, Yn zn). 每 一 次 都 观察 到 了 = 
v W 2 = z 的 机 会 是 多 少 ? 这 个 问题 的 答案 可 由 条 件 分 布 Z|Y 给 出 . 具体 地 ， 
P(Y =y,Z =2) _ f(y,z) 


PO ry 0 
Efeu) DY f@Fle)F(elz,y) 
"Foy Fw) 


= Dice A = Dice 


= Ð felz, v)f(zly). 
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现在 假设 通过 改变 计算 机 代码 来 干预 具体 地 , 假设 固定 Y 在 值 y 处 . 代码 现在 就 
变 为 如 下 的 样子 : 


set Y=y 
for i=1,---,n 
zi < -px (zi) 


zi < —pzjx,y (zilzi y). 


已 经 设 定 Y =y, 则 Z = z 的 机 会 是 多 少 呢 ? 为 了 回答 这 个 问题 , 注意 到 干预 已 经 
将 联合 概率 变 为 
f*(a,2) = f(@)f (lzy). 


问题 的 答案 可 以 由 边际 分 布 给 出 : 
HOLDI ACORD DOUGAN 


记 之 为 P(Z = 2l¥ := y) R SIY =v). 称 P(Z = 2Y =y) 为 通过 观测 的 调节 或 被 
动 调节 . 称 P(2 = z|Y := y) 为 通过 干预 的 调节 或 主动 调节 被 动 调节 常用 来 回答 如 
下 的 预测 问题 : “给 定 乔 吸 烟 的 条 件 下 ， 他 得 肺癌 的 概率 是 多 少 ?” 主 动 调节 常用 来 
回答 一 个 如 下 的 因果 问题 , 若 乔 戒 烟 了 , 他 得 肺癌 的 概率 是 多 少 ?”. 考虑 一 个 二 
元 组 (9,P), 其 中 9 是 一 个 DAG,P 是 DAG 中 变量 V 的 一 个 分 布 . 令 p 表 示 P 的 
概率 函数 . 考虑 干预 和 固定 一 个 变量 X 使 之 等 于 r. 通过 做 两 件 事 来 表示 该 干预 : 

(1) 通过 移 走 所 有 的 指向 X 的 有 向 边 来 产生 一 个 新 的 DAG g. 

(2) 通过 从 f(v) PEE (elx) 项 来 产生 一 个 新 的 分 布 f*(v) = P(V = ZIX:= 
z). 

新 的 二 元 组 (9*, f*) 表示 干预 “set X ==. ” 

17.15 例 “也许 你 已 经 注意 到 了 下 雨 和 草坪 潮湿 之 间 的 相关 关系 , 也 就 是 ， aE 
量 “ 下 雨 * 关于 变量 “草坪 潮湿 "不 是 独立 的 , 因此 prw (r w) + pa(r)pw(w), 其 中 ， 
RAR EMT W 表示 草坪 潮湿 . 考虑 下 面 的 两 个 DAGs: 


下 雨 一 草坪 潮湿 ， 下 雨 一 草坪 潮湿 . 


第 一 个 DAG 意味 着 1(w,7) = f(r)f(uwlr) 而 第 二 个 DAG 意味 着 f(w,7) = f(w)f("| 
w), 不 管 联合 分 布 f(w,7) 是 什么 , 两 个 图 都 是 正确 的 两 者 意味 着 RAW 是 不 独 
立 的 . 但 是 , 直观 地 , 若 我 们 想 让 一 个 图 去 表示 因果 关系 ， 则 第 一 个 是 正确 的 而 第 二 
个 是 错误 的 . 向 你 的 草坪 酒水 并 不 导致 下 雨 认为 第 一 个 正确 而 认为 第 二 个 错误 的 
原因 是 由 第 一 个 图 得 到 的 干预 是 正确 的 . 
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看 第 一 个 图 并 形成 干预 W = 1, 其 中 , 1 表示 “草坪 潮湿 . ”按照 干预 的 准则 , 移 
走 指 向 W 的 有 向 边 得 到 修改 后 的 图 : 


FR | set 草坪 潮湿 =1 

具有 分 布 f) = f(r). 因此 , P(R = r|W := w) =P(R=7) 表明 “草坪 潮湿 ”并 不 
导致 下 雨 . 

假设 (错误 地 ) 假定 第 二 个 图 是 正确 的 因果 关系 图 且 在 第 二 个 图 上 形成 干预 
W = 1. 没有 需要 拆除 的 指向 W 的 有 向 边 , 因此 干预 图 和 原来 的 图 是 一 样 的 . 因此 
f*(r) = f(rlw), 这 意味 着 改变 “潮湿 ” 就 改变 了 “下 雨 ”. 显然 , 这 是 荒 廖 的. 

两 者 都 是 正确 的 概率 图 但 是 只 有 第 一 个 是 有 正确 的 . 通过 利用 背景 知识 而 知道 
正确 的 因果 关系 图 . 

17.16 注 ”力求 从 数据 中 获知 正确 的 因果 关系 图 , 但 是 这 样 做 是 危险 的 . 事实 
上 , 有 两 个 变量 的 情形 也 是 不 可 能 的 . 在 多 于 两 个 变量 的 情形 , 在 特定 的 假设 下 存在 
一 些 方法 可 以 找到 因果 关系 图 , 但 是 它们 都 是 大 样本 方法 , 而 且 , 永远 不 可 能 知道 为 
了 使 得 方法 可 靠 所 拥有 的 样本 基 是 否 足够 大 . 

可 以 用 DAGs 来 表示 混淆 变量 . 若 X 为 一 个 处 理 变量 且 Y 为 一 个 结果 变量 ， 
混淆 变量 Z 通过 有 向 边 同 时 指向 X 和 Y, 见 图 17.11. 通过 用 干预 的 形式 容易 地 验 
证 下 列 陈 述 是 正确 的 . 


SIN IN 


Fm Y 
图 17.11 随机 化 研究 pp pr 
圆圈 里 的 变量 是 未 观测 的 


在 一 个 随机 化 研究 中 , Z 和 X 之 间 的 有 向 边 被 拆除 . 在 这 种 情况 下 , 即使 Z 没 
有 被 观测 到 (通过 将 Z 用 一 个 圈 (circle) 围 住 来 表示 ), X MY 之 间 的 因果 关系 也 
是 可 估计 的 , 因为 可 以 证 明 E(Y|X := 2) = E(Y|X = z), 这 里 没有 涉及 未 观测 到 的 
变量 Z. 在 一 个 观测 性 研究 中 , 所 有 的 混淆 变量 都 被 观测 到 了 , 根据 公式 (16.7) 可 
MIJA] E(Y|X := z) = f E(Y|X = z, Z = z)dFz(z). 若 Z 未 被 观测 到 , 则 不 能 估计 
因果 关系 结果 , 因为 


E(Y|X := z) = J eerrx =2,Z = z)dFz(z) 


涉及 未 观测 到 变量 Z. REIH X 和 Y, 因为 在 这 种 情况 下 , POV = vIX = 2) ¢ 
PUY = 中 X := 2), 这 也 是 另外 一 种 关于 因果 关系 不 是 联合 关系 (association) 的 说 
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法 . 事实 上 , 可 以 找到 DAGs 和 反 事 实 (counterfactuals) 之 间 的 精确 的 关联 .假设 
XAY ITER. 定义 混淆 变量 Z 为 


1, (Co,C1) = (0,0), 
zu} % (CoCr) = (0,1), 
3, (Co, Ci) = (1,0), 
4, (Cu CD) = (1,1). 


从 这 里 可 以 很 清楚 地 得 到 DAG 方法 和 反 事实 (counterfactuals) 方法 之 间 的 对 应 . 
此 处 留 给 有 兴趣 的 读者 . 


179 J 题 
1. 证 明 (17.1) 和 (17.2) 是 等 价 的 . 
2. 证 明定 理 17.2. 
3. $ X,Y MZ 具有 如 下 的 联合 分 布 : 
Y=0 Y=1 Y=0 Y=1 
X=0 0.405 0.045 X=0 0.125 0.125 
X=1 0.045 0.005 X=1 0.125 0.125 


(a) 求 在 给 定 Z = 0 的 条 件 下 X 和 Y 的 条 件 分 布 , 以 及 在 给 定 Z = 1 的 条 件 下 
X ALY 的 条 件 分 布 . 

(b) 证 明 XIILY|2. 

(0) R X AY 的 边际 分 布 . 

(d) 证 明 X 和 Y 不 是 边际 独立 的 . 
. 考虑 图 17.6 中 的 三 个 没有 相遇 的 DAGs, uE X I 2Z|Y. 
考虑 图 17.6 中 有 相遇 的 DAG, 证 明 XIZ HERE Y 的 条 件 下 X 和 2 是 相 
互 依赖 的 . 
& X € {0,1}, Y € {0,1}, Z € {0,1,2}. 假设 (X,Y, Z) 的 分 布 关于 下 图 是 马尔 可 
夫 的 ， 


a 


2 


XAYAZ 


构造 一 个 关于 该 DAG 是 马尔 可 夫 的 联合 分 布 f(z,y,z). 从 该 分 布 产 生 1 000 个 
随机 向 量 . 利用 数据 用 极 大 似 然 法 来 估计 分 布 . 比较 估计 出 的 分 布 与 真实 分 布 . 
令 4 = (boo0,0o01,… ,0112), 其 中 Orst = P(X =7,Y =s, Z =t). 对 这 12 个 参数 
用 自助 法 (Bootstrap) 得 到 其 标准 误差 和 95% 的 置信 区 间 . 

7. 考虑 图 17.12 中 的 DAG. 
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(a) 写 出 其 联合 密度 的 因子 分 解 式 . 
(b) 证 明 X I Z. 


Z, 


2 
图 17.12 第 7 题 的 DAG 


8. $ V = (X,Y, Z) 具有 如 下 的 联合 分 布 : 
X ~ Bernoulli (3): 
4Z 一 2 
Y |X =s ~ Bernoulli (es): 


2(z+y)-2 
ZIX=2,Y =y ~ Bernouli ( s ). 


1+ e2(@+v)-2 


(a) R P(Z = zY = y) 的 一 个 表达 式 . 特别 地 , R P(Z = 1Y = 1). 

(b) 编写 一 个 程序 去 模拟 这 个 模型 . 实施 该 模拟 并 经 验 地 计算 出 P(2Z = 1Y = 1). 
把 其 当 作 模 拟 量 N 的 一 个 函数 而 画 出 该 图 像 . 它 应 该 收敛 到 (a) 中 计算 出 
的 理论 值 . 

(c) (参考 附录 中 的 内 容 ) 写 出 P(2Z = 1|Y := y). 特别 地 , R P(Z = 1Y := 1). 

(d) (参考 附录 中 的 内 容 ) 修改 程序 去 模拟 干预 “set Y = 1 ”, 实施 该 模拟 并 经 
验 地 计算 出 P(2 = 1|Y := 1). 把 其 当 作 模 拟 量 N 的 一 个 函数 而 画 出 该 图 像 . 
它 应 该 收敛 到 (c) 中 计算 出 的 理论 值 . 

. 延续 第 8 题 . V = (X,Y, Z) 具有 下 面 的 联合 分 布 : 


o 


X ~ Normal (0,1), 
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Y |X =a ~ Normal (az, 1), 
Z|IX=7,Y =y ~ Normal (6y+ yz, 1). 


其 中 , 0,6 和 y 是 固定 的 参数 . 经 济 学 家 称 此 类 模型 为 结构 方程 模型 . 

(a) 求 f(z1y) 和 E(Z | Y =y) = f zf(zly)dz 的 一 个 显 式 表达 . 

(b) (参考 附录 中 的 内 容 ) R f(z | Y := y) 的 一 个 显 式 表达 且 再 求 出 E(Z |Y := 
y) = f zf(z |Y := y)dy, 并 与 (a) 比较 . 

(c) 求 出 (Y, Z) 的 联合 分 布 . RY 和 2 的 相关 系数 p. 

(d) (参考 附录 中 的 内 容 ) 假设 X 没有 被 观测 到 且 想 要 从 (Y, Z) 的 边际 分 布 中 
得 到 因果 关系 的 结论 . (设想 X 为 未 被 观测 到 的 混淆 变量 . ) 特别 地 , 假设 声 
称 车 p 关 0 则 Y 导致 2 并 且 车 p=0 则 Y 没有 导致 2. 证 明 这 将 导致 错误 
的 结论 . 

(e) (参考 附录 中 的 内 容 . ) 假设 实施 一 个 随机 化 实验 , 其 中 ，Y 是 随机 化 分 配 的 . 
具体 地 , 假设 

X ~ Normal (0,1), 
Y ~ Normal (a,1), 
Z|X=2,Y =y ~ Normal (By+7z,1). 


证 明 (d) 中 的 方法 现在 得 到 正确 的 结论 (也 就 是 ,p= 04 HAL f(z |¥ := y) 
不 依赖 于 y). 
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无 向 图 也 可 以 像 有 向 图 一 样 来 表示 独立 性 关系 . 因为 有 向 图 和 无 向 图 在 实际 中 
都 有 应 用 , 所 以 熟练 掌握 两 者 是 有 益处 的 . 两 者 的 主要 差异 是 从 图 中 读 出 独立 性 关 
系 的 规则 不 同 . 


18.1 无 向 图 


一 个 无 向 图 9=(V, E) 由 一 个 有 限 节点 集 Y 和 由 每 对 节点 组 成 的 边 或 GOR E 
所 构成 . 节点 对 应 着 随机 变量 X,Y, Z，,… 而 边 被 记 作 一 些 无 序 对 . 例如 , (X,Y) € E 
表示 X 和 Y 通过 一 条 边 连接 起 来 . 图 18.1 给 出 了 一 个 无 向 图 的 例子 . 


yY 


x Zz 
图 18.1 节点 集 为 V = {X,Y,Z} 的 一 个 图 . HAURA E= {(X,Y), (Y, 2)} 
若 两 个 节点 之 间 存在 一 条 边 , 则 称 这 两 个 节点 是 邻接 的 , 记 作 X ~ Y. 在 图 18.1 
中 , X 和 Y 是 邻接 的 但 是 X 和 2 不 是 邻接 的 . 若 对 每 个 都 有 Xi- ~ Xi, 则 序列 
Xo Xn 称 为 一 条 路 . 在 图 18.1 中 , X,Y, Z 是 一 条 路 . 若 一 个 图 中 任意 两 个 节点 


之 间 都 存在 一 条 边 , 则 称 这 个 图 是 完全 的 . 一 个 子 节点 集 UC V 连同 其 边 被 称 作 一 
个 子 图 


Y Z 


图 18.2 {Y,W} 和 {Z} 被 {X} 分 离 . 而 且 , W 和 2 ak {X,Y} 分离 


18.2 概率 与 219 


设 4,B 和 C 是 V 的 不 同 子 集 , BM 4 中 的 一 个 变量 到 B 中 的 一 个 变量 的 路 
都 相交 于 C 中 的 一 个 变量 , 就 说 C 分 离 4 和 B. 在 图 18.2 中 ,了 YW 和 2Z 被 2 分 
离 . 同时 , W 和 2 被 X,Y 分 离 . 


18.2 概率 与 图 


令 为 具有 分 布 P 的 随机 变量 集 . 构造 一 个 图 , 其 每 个 节点 对 应 V 中 的 每 个 
变量 . 略 去 一 对 变 基 之 间 的 边 若 它们 在 给 定 其 余 变 量 的 条 件 下 是 独立 的 


X 和 Y 之 间 没有 边 e XIY| 其 余 变量 ， 


其 中 ,“ 其 余 变 量 " 表示 除了 XX 和 YY 之 外 的 所 有 其 他 变量 . 这 样 的 图 称 作成 对 马尔 
可 夫 图 . 图 18.3~ 图 18.6 给 出 了 一 些 例 子 . 


图 18.3 XIL2ZIY 


图 18.4 未 表明 的 独立 性 关系 


图 中 暗含 着 一 系列 的 成 对 条 件 独立 性 关系 . 这 些 关 系 可 以 推出 其 他 的 条 件 独立 
性 关系 . 如 何 找到 这 些 关系 呢 ? 幸运 的 是 , 也 可 以 从 图 中 直接 读 出 这 些 其 他 的 条 件 
独立 性 关系 , 如 下 面 的 定理 所 述 . 

18.1 定理 4 G=(V,E) 是 一 个 分 布 为 P 的 成 对 马尔 可 夫 图 . A ABC 
AV 的 不 相同 的 子 集 使 得 C 分 离 4 和 已, 则 4IBIC . 

18.23 车 4 和 B 不 是 连通 的 (也 就 是 不 存在 一 条 从 A 到 B 的 路 ), 则 可 以 
把 AM B 看 作 被 空 集 分 离 , 则 由 定理 18.1 可 知 AN B. 


220 第 18 章 无 向 图 


定理 18.1 中 的 独立 性 条 件 被 称 作 全 局 马尔 可 夫 性 质 . 将 看 到 成 对 和 全 局 马尔 可 
夫 性 质 是 等 价 的 . 把 这 个 问题 表述 得 更 确切 些 . 给 定 一 个 图 9, 令 Mpair(9) 表示 满 
足 成 对 马尔 可 夫 性 质 的 分 布 集 , 因此 Pe Moair(9), ESSA P F, # X IIY| 其 余 变 量 
SEC X ALY 之 间 不 存在 边 . 令 Maloba(9) 为 满足 全 局 马尔 可 夫 性 质 的 分 布 集 : 
SUP € Mpair(9) ,在 分 布 P 下 ,车 AI BIC 当 且 仅 当 C 分离 4 和 B. 


x Ww 


Y A 


Æ 18.5 XU ZHY, W} 与 YI Zz} 


ee 


x Y z w 
图 18.6 成 对 独立 性 意味 着 X I Z|{Y, W}. 但 是 X I ZIY 成 立 吗 ? 


18.3 定理 4G 为 一 个 图 , 则 Mpair(9) = Malobal(9) - 

定理 18.3 保证 了 可 以 使 用 简单 的 成 对 性 质 来 构建 图 , 这 就 使 得 可 以 用 全 局 马 
尔 可 夫 性 来 推导 其 他 独立 关系 .可 以 想象 , 如 果 用 代数 方法 来 推导 有 多 困难 . 回 到 
图 18.6, 可 以 看 到 XIZIY 和 YUWIZ 

18.4 例 AR 18.7 TA XY, X UZ A XU(Y,Z). 

18.5 Ø 由 图 18.8 ATI X I W|(Y, Z) A XU ZY. 


Y 


图 18.7 XUY,xUZS5 Xu(y,Z) - 
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图 18.8 XUW|(Y,Z) 与 XIZIY 


18.3 团 与 势 


若 一 个 图 的 变量 集中 的 任意 两 个 对 应 的 节点 都 是 邻接 的 , 则 称 该 集 为 一 个 团 . 
若 一 个 团 任意 增加 一 个 节点 后 就 不 能 成 为 团 , 则 称 之 为 一 个 极 大 团 . 一 个 势 就 是 任 


意 一 个 正 函 数 . 在 特定 的 条 件 下 , 可 以 证 明正 关于 9 是 马尔 可 夫 的 当 且 仅 当 其 概率 
函数 f 可 以 写 为 


其 中 ，C 是 一 个 极 大 团 集 , wc 是 一 个 势 , E 
Z=% J] we(zo). 
Cec 


18.6 Ø) 图 18.1 中 的 极 大 团 是 C1 = {X,Y} 和 C = {Y, Z}. 因此 , HP RF 
该 图 是 马尔 可 夫 的 , 则 其 概率 函数 可 以 写 为 


sa) = Leseyeko)， (18.1) 


S(x,y, 2) x Yr(z, y)pa(y,z). 
pi 和 wo 是 某 些 正 函数 . 
18.7 例 图 18.9 中 的 极 大 团 为 
{Xi,X2}, {Xi,Xs}, {X2,Xa}, {Xs, Xs}, {X2, Xs, X6}. 


X: Xs 


Xe 


Xs Xs 


图 18.9 该 图 的 极 大 团 为 {X1, X2},{X1, X3},{X2, Xa},{Xs, Xs},{X2, Xs, Xo} 
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因此 可 以 把 概率 函数 写 为 


f(z1, 72, T3, £4, T5, 26) cc Wi2(zl,T2)Wais(zl,zs)W2a(72,7Z4) 


x35 (Ta, 25) 256(2, 25, z6). 


18.4 拟 合 图 模型 . 


给 定 一 个 数据 集 , 如 何 找到 一 个 图 模型 来 拟 合 该 数据 ? 对 于 有 向 图 来 说 , 这 个 
问题 太 大 , 在 这 里 也 不 讨论 . 但 是 , 在 离散 的 情形 , 可 以 用 对 数 线性 模型 来 对 数据 作 
图 模型 拟 合 , 这 将 是 下 一 章 的 内 容 . 


18.5 文献 注释 


关于 无 向 图 的 系统 严格 的 讨论 参见 文献 (Whittaker, 1990; Lauritzen; 1996). 下 
面 的 部 分 习题 摘自 文献 ( Whittaker, 1990). 


18.6 J 题 
1. 考虑 随机 变量 (X1, X2, X3). 在 下 面 的 每 个 情形 ， 画 出 一 个 与 给 定 的 独立 性 关系 
对 应 的 图 . 
(a) X1 I X3 | X2- 


(b) Xi I Xo | X3 和 Xi I Xs |X2. 

(c) X1 H X2 | Xs , Xi Xs | X2 和 X2 Xs | Xi. 

考虑 随机 变量 (X1, X2, Xa, Xa). 在 下 面 的 每 个 情形 ， 画 出 一 个 与 给 定 的 独立 性 关 
系 对 应 的 图 . 

(a) Xi I Xs | X2, Xa , Xi II X4 | X2, X3 和 X2 I X4 | Xi, Xs. 

(b) Xi I X2 | X3, Xa, X1 I X3 | Xo, X4 和 X2 I Xs | Xi, X4- 

(c) Xi II Xs | X2, X4 和 X2 I X4 | Xi, Xs- 

一 对 变量 间 的 条 件 独立 性 是 极 小 的 若 不 能 用 分 离 定理 去 掉 条 件 集 中 的 任意 一 个 
变量 , 也 就 是 , 不 能 从 竖 线 的 右手 边 去 掉 (Whittaker, 1990). 写 出 下 图 中 的 极 小 
条 件 独立 性 :(a) 图 18.10; (b) 图 18.11; (c) 图 18.12; (d) 图 18.13. 

Ay Xi, Xa, Xs 为 二 元 随机 变量 . 构造 下 面 问题 的 似 然 必 检 验 : 


Ho: Xi UW X2|X3 对 Hı: 入 关于 X2z|Xs 是 不 独立 的 . 


这 里 是 Morrison 等 (1973) 的 乳腺 癌 数 据 , 包括 诊断 中 心 (Xa), 细胞 核 异 形 性 级 
别 (X2) 和 存活 状况 (Xs): 


Dd 


» 


A 


ig 
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xX, X: X, 
xX; 
图 18.10 
Xx, X: xi X, 
— ”eo 
图 18.11 
Xs X: 
xX, x 
图 18.12 
X2 恶性 恶性 良性 良性 
X3 死亡 生存 死亡 生存 
Boston 35 59 47 112 
Xi 
Glamorgan 42 77 26 76 


(a) 把 这 看 作 一 个 多 项 分 布 并 求 其 极 大 似 然 估计 - 
(b) 若 某 人 的 肿瘤 在 Glamorgan 诊所 被 确定 为 良性 的 , 则 估计 该 类 人 死亡 的 概率 


是 多 少 ? 对 该 估计 求 其 标准 误差. 
(c) 检验 下 列 假设 : 
XI II Xz|Xa 对 X1 VHX2| Xs, 
Xı I Xs|X2 对 XTX3|X2, 
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Xo II X3|X1 对 Xo VwowwrX3|X1- 
运用 第 4 题 中 的 检验 . 在 检验 结果 的 基础 上 , 画 出 并 解释 所 得 到 的 图 . 


X 
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本 章 将 研究 对 数 线性 模型 , 它 在 多 元 离散 数据 建 模 方面 很 有 用 处 . 对 数 线性 模 
型 和 无 向 图 之 间 有 着 紧密 的 联系 


19.1 ”对 数 线性 模型 
A X= (Xi,… ,Xm) 为 一 个 离散 的 随机 向 量 , 其 概率 函数 为 
Je) = P(X = z) = P(X1 = 7 , Xm = 2m), 


其 中 , z = (z1,… ,zm). 令 ry HAR Xi 的 取 值 个 数 . 不 失 一 般 性 , 可 以 假设 X; E€ 
{0,1,.… ,7j 一 1}. 假设 现在 有 个 这 样 的 向 量 - 可 以 把 数据 看 作 来 自 一 个 类 别 数 为 
N = mixrax'…xrm 的 多 项 分 布 的 样本 . 该 数据 可 以 表示 为 在 一 个 71 X72X… Xrm 
的 表格 中 的 计数 . 令 p = (p1,… ,PN) 表示 多 项 分 布 的 参数 . 

令 5 = {1,… sm}. 给 定 一 个 向 量 > = (z1,… ,zm) 和 一 个 子 集 4 CS, 令 
wa = (z; : j € A). 例如 , 若 A = {1,3}, W za = (z1,73). 

19.1 定理 单个 随机 向 量 X = (X1,… Xm) 的 联合 概率 函数 f(z) 可 以 记 作 


log f(x) = 》 valz), (19.1) 
ACS 

AP, 求 和 是 在 8 二 {1,… m} 的 所 有 子 集 上 4 取 的 且 消 满足 下 列 条 件 : 

1. We(z) 为 一 个 常数 . 

2. 对 于 每 个 AC 5, vale) AÈ ral) 的 函数 而 不 是 Tj 的 其 他 部 分 的 函数 . 

3. ic AH r =0, A] ya(z) = 0. 

方程 (19.1) 中 的 公式 称 作 f 的 对 数 线性 展开 . 每 个 wa(z) 可 能 依赖 于 某 些 未 
知 参数 Ba. & 8 = (Ba: ACS) 为 包含 所 有 这 样 的 参数 的 集合 . 当 想 要 强调 其 对 未 
知 参数 6 的 依赖 时 , 记 f(e) = f(z; 6). 

根据 多 项 分 布 可 知 , 其 参数 空间 是 


N 
P= {p= (or ,pn) :Dy 20,5075 =1}. 


j=l 
这 是 一 个 N — 1 维 的 空间 . 在 对 数 线性 表达 中 , 参数 空间 是 


o= {a= (8 Bw): B= lp €P}, 
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其 中 , 6(p) 是 与 p 有 关 的 5 的 取 值 集 . 集合 @ 是 一 个 RN 中 的 N — 1 维 球面 . 总 是 
可 以 通用 这 两 种 参数 化 方法 , 既 可 以 写 6 = plp), 也 可 以 写 p = p(B). 
19.2) 4 X ~ Bernoulli(p), 其 中 ,0<p<1. 可 以 把 X 的 概率 质量 函数 写 为 
f(x) = p*(1—p)'* = pipe, 
对 于 z = 0,1, 其 中 ,mm =p H p =1- p. 因此 ， 
log f(z) = Yo(x) + v(z), 


其 中 ， 
a(x) = log(p2), 


(7) = og (2+). 
注意 到 vol) 是 一 个 常数 (作为 z 的 函数 ) HY z = 0 时 如 (z) = 0. 因此 , 定理 
19.1 中 的 三 个 条 件 成 立 . 对 数 线性 参数 为 
Bo = log(p2), Brog (2). 
ETHERIA P = {(p1,p2) : pj > 0,pr + po = 1}. 对 数 线 性 参数 空间 为 
6= { (4.61) ER? : eth: + oho = i}. 


给 定 (pi, p2) 可 以 求 得 (Bo,B1). 相反 地 , 给 定 (Bo, A) 可 以 求 得 (p1,p2) 

19.3 例 令 X= (Xi, Xz), 其 中 Xi € {0,1} E X2 € {0,1,2}. n 个 这 样 的 随 
机 向 量 的 联合 分 布 是 一 个 有 6 个 类 别 的 多 项 分 布 . 该 多 项 分 布 参数 可 以 记 作 一 个 
2 x 3 的 表格 如 下 : 


多 项 分 布 z2 0 1 2 
0 Poo Por po2 
zı 
1 Pio Pil Pi2 
这 个 数据 向 基 可 以 归结 为 计数 : 

数据 z2 0 1 2 

0 Coo Cor Coz 

Tı 
1 Cio Cu C12 


对 于 z = (21, 22), 对 数 线性 展开 具有 形式 
log f(z) = We(z) + Yı (2) + (7) + Yr2(z), 
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其 中 ， 


ye(z) = log poo, 
va(z) = z1 toe(22), 


vala) = Iaa = Dlg (222 E) +1(22 = 2)10( 22), 


paalz) = I(z1 = 1,12 = Dng( 222e) 4 Tar = 1,22 =2) iog( B22). 
Po2p10 


要 确定 定理 中 关于 少 的 三 个 条 件 都 已 经 满足 . 该 模型 的 6 个 参数 为 
bı = logpoo, b= toe(22), B= vs (a), 


Po2 Plipoo P12P00 
=] =j = log $ =k 一 一 一 |. 
Ae on (Be ) Bs (22 e) Ps pe (2222) 


下 面 的 定理 给 出 了 一 ashen ea lain a a a 

19.4 EIB 4 (Xa, Xp, Xe) 为 向 量 (Xis, Xm) 的 一 个 分 割 . 则 Xo I XelXa 
SARSHRRERAFAP EDA bfc A Y HA 0. 

为 了 证 明 该 定理 , 将 用 到 下 面 的 引 理 , 其 证 明 可 以 由 条 件 独 立 性 的 定义 很 容易 
地 得 到 . 

19.5 引 理 一 个 分 割 (Xa, Xo, Xe) 满足 Xo I Xe|Xa 当 且 仅 当 对 于 某 些 函数 
g 和 及 有 f(Ta, Tb, Te) = g(Ta, To)h(Ta, te). 

证 明 ( 定 理 19.4) ”假设 办 为 0 只 要 t 具 有 b 和 c 中 的 坐标 . 因此 , 是 0 若 
t&aUb 或 上 zaUc. 因此 

logj(z)= J wz)+ SO wl) - Z wle). 
tCaUb tcaUe 

HERRARNA, 看 到 联合 密度 函数 具有 形式 g(a, zb)h(za,zc). 由 引 理 19.5, Xp I 
Xec|Xa. 反之 亦 成 立 . 


19.2 ”图 性 对 数 线性 模型 


若 一 个 对 数 线性 模型 的 缺失 项 只 对 应 着 条 件 独立 性 约束 , 则 称 该 模型 
具有 图 性 . 
19.6 定义 A logf(x) = Vacs valt) 为 一 个 对 数 线性 模型 . 若 除 了 某 对 坐标 
不 在 某 个 图 9 的 边 集 里 的 情况 外 所 有 的 b 项 者 是非 零 的 , 则 f 具有 图 性 . HA) 
话说 , valz) = 0 当 且 仅 当 {i,j} CAB (i,j) 不 是 一 条 边 . 
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关于 上 面 的 定义 , 可 以 这 样 来 理解 : 
着 可 以 向 模型 中 增加 一 项 而 其 图 并 不 改变 , 则 该 模型 不 具有 图 性 . 
19.7 例 考虑 图 19.1 中 的 图 


x; X, 


x, X: Xs 
Æ 19.1 例 17.9 的 图 


与 此 图 对 应 的 图 性 对 数 线性 模型 为 


log f(x) =ye + pı (z) + p(z) + Ya(z) + a(x) + Ys(z) 
+ dia(z) 十 Wos(z) + yoas(z) + Was(z) + as (7) 
十 Was(z) + yos5(z) + 3as (7). 


来 看 看 这 个 模型 为 什么 是 图 性 的 . 图 中 缺失 边 (1, 5). 因此 任何 一 个 包含 上 述 指标 的 
项 都 不 出 现在 模型 里 . 例如 ， 


Yis, Yi2s, Piss, dias, W1235, Pizas, Vises, W12345. 
类 似 地 , 边 (2,4) 也 是 缺失 的 , 因此 
Yaa, Yiz, Pasa, Woss, Pizza, Pizas, W2345, Wi2345 


都 不 出 现在 模型 里 , 还 存在 其 他 的 缺失 边 . 可 以 验证 该 模型 缺失 了 所 有 对 应 的 世 项 ， 
现在 考虑 下 面 的 模型: 
log f(z) =Wo(x) + yı (£) + palz) + wa(z) + palz) + ws(z) 
+ Vi2(z) + yos(z) + vos (x) + yaa(z) + Was(z) + das (zx). 
除了 具有 三 个 指标 的 交互 项 被 去 掉 外 其 余部 分 是 相同 的 . 车 对 于 这 个 模型 画 出 一 个 


图 的 话 , 将 得 到 相同 的 图 . 例如 , 没有 一 个 v 项 包含 (1, 5), 所 以 去 掉 Xi 和 Xs 之 间 
的 边 . 但 是 这 就 不 具有 图 性 了 , 因为 它 额外 去 掉 了 一 些 项 . 这 两 个 模型 的 独立 性 和 
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图 是 相同 的 但 是 后 者 还 有 除了 条 件 独立 性 之 外 的 其 他 约束 . 这 也 不 是 件 坏事 情 , 这 
意味 着 若 只 关注 是 否 具有 条 件 独立 性 的 话 , 则 就 不 需要 考虑 这 样 的 模型 . 三 个 指标 
的 交互 项 yoas 的 出 现 意味 着 Xo 和 Xs 之 间 的 关联 强度 可 看 作 Xs 的 函数 而 变化 . 
该 项 不 出 现 表明 情况 不 是 这 样 . 


19.3 ”分 层 对 数 线性 模型 
有 一 类 对 数 线性 模型 , 它 比 图 性 模型 的 范围 大 且 应 用 广泛 . 这 就 是 分 层 对 数 线 
性 模型 


19.8 定义 若 由 WA =0 且 4C 妇 可 以 得 到 VB = 0, 则 一 个 对 数 线性 模型 是 分 
层 的 . 


19.9 引 理 ”一 个 图 性 模型 是 分 层 的 但 是 反之 未 必 成立 . 
19.10 例 令 


log f(z) = bo(x) + vi(a) + pa(z) + Ys(z) + pı2(2) 十 加 3(z). 


该 模型 是 分 层 的 ; 图 19.2 给 出 了 它 的 图 . 该 模型 也 是 图 性 的 因为 包含 (2, 3) 的 所 有 
项 都 不 出 现在 模型 里 . 它 还 是 分 层 的 . 


X: x, Xs 


图 19.2 例 19.10 的 图 


19.11 例 令 
log f(x) = bo(x) + Yı (z) + palz) + palz) + Yra(z) + vi3(x) + p23(7). 


该 模型 是 分 层 的 . 但 它 不 是 图 性 的 . 该 模型 对 应 的 图 是 封闭 的 , 见 图 19.3. 它 不 是 图 
性 的 因为 p23(z) = 0 没有 对 应 任何 成 对 条 件 独立 性 . 
19.12 例 4 
log f(z) = a(x) + wa(7) + Yra(z). 


对 应 的 图 见 19.4. 该 模型 不 是 分 层 的 , 因为 如 = 0 但 是 p 不 是 . 因为 它 不 是 分 层 
的 , 它 也 不 是 图 性 的 . 
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Xs 


图 19.3 ”该 图 是 完全 的 . 模型 是 分 层 的 但 不 是 图 性 的 


x, X: Xa 


19.4 ”该 图 的 模型 不 是 分 层 的 


19.4 模型 生成 元 


分 层 模型 可 以 用 生成 元 写 得 简洁 些 . 通过 例子 可 以 很 容易 地 解释 . 假设 X = 
(X1, X2, X3), W M = 1.2+1.3 表示 


logf = pø + Yı + p2 + U3 + Vie + Yis- 


公式 M =1.2+1.3 是 说 :“ 包 含 办 和 dis. ”必须 还 要 包含 低 阶 项 否则 它 就 不 是 分 
层 的 了 . 生成 元 M = 1.2.3 表示 饱和 模型 


log f = ye + vi + Y2 + Ys + Via + vis + pos + divs. 
饱和 模型 相当 于 拟 合 一 个 无 约束 的 多 项 分 布 . 考虑 M = 14243, 这 表示 
logf = pø + ti + Wa + Ys. 
这 是 相互 独立 性 模型 . 最 后 , 考虑 M = 1.2, 它 具有 对 数 线性 展开 
log f = pø + Yı + Y2 + Yiz- 


该 模型 使 得 Xs|X2 = z2, Xi = zl 是 一 个 均匀 分 布 . 
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19.5 拟 合 对 数 线性 模型 
令 8 表示 对 数 线性 模型 M 中 的 所 有 参数 . 关于 的 对 数 似 然 函数 为 


€(8) = > log f (Xi; 8), 
i=1 

其 中 , (Xi; 6) 表示 方程 (19.1) 给 出 的 第 i 个 随机 向 量 Xi = (Xi,… ,Xim) 的 概率 
函数 . MLEA 通常 需 由 数值 方法 得 到 . Fisher 信息 矩阵 也 是 由 数值 方法 得 到 的 且 可 
以 从 Fisher 信息 矩阵 的 逆 得 到 标准 误差 的 估计 . 

当 拟 合 对 数 线性 模型 时 , 必须 解决 下 面 的 模型 选择 问题 : 模型 中 应 该 包含 哪些 
ap SHAW? 从 本 质 上 讲 , 这 与 线性 回归 中 的 模型 选择 是 相同 的 . 

一 种 方法 是 用 AIC 准则 . 令 M 表示 某 个 对 数 线性 模型 . 不 同 的 模型 设 定 不 同 
W y TN O. 现在 选择 模型 M 使 得 最 大 化 


AIC(M) = &(M) — |M], (19.2) 


其 中 , |M| 表示 模型 M 中 的 参数 个 数 , iM) 是 该 模型 的 对 数 似 然 函数 在 MLE 处 
的 取 值 . 通常 模型 搜索 被 限制 在 分 层 模型 的 范围 内 . 这 就 减 小 了 搜索 空间 . 也 有 人 
建议 应 该 只 在 分 层 模型 的 范围 内 搜索 , 因为 其 他 的 模型 不 容易 解释 . 

另外 一 种 不 同 的 方法 建立 在 假设 检验 的 基础 上 . 包含 所 有 可 能 的 项 的 模型 被 
称 作 饱和 模型 旦 用 Msat 来 表示 . 现在 对 于 每 个 M 检验 假设 


Ho : 真实 的 模型 为 M 对 Hy : 真实 的 模型 为 Meat， 
关于 该 假设 的 似 然 比 检验 称 作 偏差 (deviance). 
19.13 定义 ”对 于 任何 一 个 子 模型 M, 定义 其 信息 偏差 dev(M) 为 


dev(M) = 2(ésat — Êm), 


其 中 ,bsat 为 饱和 模型 的 对 数 似 然 函数 在 其 MLE 处 的 取 值 , 而 Ên 为 模型 M 的 
对 数 似 然 画 数 在 其 MLE 处 的 取 值 


19.14 定理 ”信息 偏差 是 下 面 检验 的 似 然 比 检验 统计 量 : 
Ho : 模型 为 M 对 Hı : 模型 为 Msat- 


在 Ho 下 , dev(M) 马 X2， 自 由 度 ”等 于 饱和 模型 和 模型 M 的 参数 之 差 
找到 好 模型 的 一 个 方法 是 用 偏差 去 检验 每 个 子 模型 . 没有 被 该 检验 拒绝 的 每 个 
模型 可 以 认为 是 一 个 合理 的 模型 . 然而 , 这 可 能 不 是 一 个 好 的 方案 , 原因 有 ; 第 一 ， 
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最 后 将 作 很 多 检验 , 这 意味 着 存在 充足 的 机 会 去 犯 第 一 类 错误 和 第 二 类 错误 . 第 二 ， 
最 后 将 用 到 很 多 模型 是 在 无 法 拒绝 Ho 的 条 件 下 得 到 的 . 但 也 可 能 是 因为 低 的 功效 
而 不 能 拒绝 Ho. 这 样 会 使 最 后 因为 一 个 低 的 功效 而 得 到 一 个 不 好 的 模型 . 

由 这 种 方法 得 到 “最 优 模型 之 后 , 可 以 画 出 其 对 应 的 图 . 


中 心 


级 别 


存活 状况 
图 19.5 i 19.15 的 图 


19.15 例 FÆ Morrison 等 (1973) 的 乳腺 癌 的 数据 . 该 数据 具有 变量 , 诊 
断 中 心 (Xi), 细胞 核 异 形 性 级 别 (X2) 和 存活 状况 (X3). 


X2 Et Et 良性 良性 
Xs 死亡 生存 死亡 生存 
Boston 35 59 47 112 
xX 
Glamorgan 42 77 26 76 
ke ee ū 
饱和 对 数 线性 模型 为 
变量 Bi & Wi p fit 
(RE) 3.56 0.17 21.03 0.00*** 
中 心 0.18 0.22 0.79 0.42 
级 别 0.29 0.22 1.32 0.18 
存活 状况 0.52 0.21 2.44 0.01* 
中 心 x 级 别 -0.77 0.33 一 2.31 0.02* 
中 心 x 存 活 状况 0.08 0.28 0.29 0.76 
级 别 x 存 活 状况 0.34 0.27 1.25 0.20 
中 心 x 级 别 x 存 活 状况 0.12 0.40 0.29 0.76 


由 AIC 准则 和 后 向 搜索 得 到 的 最 优 子 模型 为 
—— 


变量 Bi & Wi piii 

(RE) 3.52 0.13 25.62 < 0.00%** 
中 心 0.23 0.13 1.70 0.08 

级 别 0.26 0.18 1.43 0.15 

存活 状况 0.56 0.14 3.98 6.65e—05*** 
中 心 x 级 别 -0.67 0.18 一 3.62 0.00*** 

级 别 x 存 活 状况 0.37 0.19 1.90 0.05 


该 模型 M 的 图 可 参见 图 19.5. 为 了 检验 该 模型 的 拟 合 程度 , 计算 得 到 M 的 偏差 为 
0.6. 其 相应 的 x? 具有 自由 度 8 一 6 = 2. p 值 为 P(x? > 0.6) = 0.74. 所 以 没有 证 据 
表明 该 模型 拟 合 不 好 . 
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19.6 文献 注释 
本 章 从 (Whittaker, 1990) 一 书 中 汲取 了 很 多 , 那 是 一 本 关于 对 数 线性 模型 和 图 


性 模型 的 优秀 教材 . 部 分 习题 也 摘自 Whittaker. 关于 对 数 线性 模型 的 一 个 经 典 文 
献 是 (Bishop et al., 1975). 


La i i a 


Ea 


S 


19.7 J 题 
根据 例 19.3 中 的 B's RH zs 
证 明 引 理 19.5. 
证 明 引 理 19.9. 


考虑 随机 变量 (Xi, X2, Xs, Xa). 假设 其 对 数 密度 为 

log f(z) = ye(z) + p12(7) + vis(z) + yos(z) + Ysa (zr). 
(a) 画 出 这 些 变量 图 G. 
(b) 写 出 所 有 的 可 以 从 图 中 得 到 的 独立 性 和 条 件 独立 性 关系 . 


(c) 该 模型 是 图 性 的 吗 ? 它 是 分 层 的 吗 ? 
假设 参数 p(z1, 22,03) 是 与 下 列 值 成 比例 的 : 


x2 0 0 1 1 
T3 0 1 0 1 
0 2 8 4 16 
z 
1 16 128 32 256 


求 其 对 数 线性 展开 的 4 项 . 评价 该 模型 . 
令 X1,… Xa 为 二 元 变量 . 画 出 下 面 对 数 线性 模型 对 应 的 独立 性 图 . 同时 , 判 
断 每 个 模型 是 图 性 的 和 (或 分 层 的 或 都 不 是 ). 
(a) log f = 7 + 11z1 + 2z2 + 1.523 + 1774. 
(b) log f = 7+1lzli 十 2zz 十 1.5rs 十 17z4 十 12z2zs 十 78z2z4 十 37374 十 32z27374. 
(c) log f =7 + 111 + 2x2 + 1.523 十 17z4 十 12727s + 3zsz4 + 2104 + 2210. 
(d) log f = 7+ 50552, 227324. 
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本 章 将 讨论 概率 密度 函数 和 回归 函数 的 非 参数 估计 , 称 为 曲线 估计 或 光滑 方法 

第 7 章 已 经 看 到 , 在 没有 关于 F 的 任何 假设 的 前 提 下 , 作出 一 个 累积 分 布 函 
数 下 的 一 致 性 估计 . 若 想 要 估计 一 个 概率 密度 函数 f(z) 或 者 一 个 回归 函数 r(z) = 
E(Y|X = z), 情况 就 不 同 了 . 在 缺少 一 些 光滑 性 假设 的 条 件 下 就 不 能 一 致 地 估计 这 
些 函 数 . 相应 地 , 需要 对 数据 做 些 光滑 化 处 理 . 

一 个 密度 估计 的 例子 是 直方 图 , 将 在 20.2 节 中 详细 讨论 . 为 构造 一 个 密度 f 的 
直方 图 估计 , 将 实数 轴 分 割 成 互 不 相交 的 集合 称 之 为 窗 格 . 直方 图 估计 是 逐 段 常 值 
函数 , 其 中 其 高 度 是 与 每 个 箱子 里 的 观测 数 成 比例 的 , 见 图 20.3. 箱子 的 个 数 就 是 
一 个 光滑 参数 的 例子 . 若 光滑 程度 过 高 (大 窗 格 ) 将 得 到 一 个 偏差 过 大 的 估计 , 同 理 
若 光 滑 程度 太 小 (小 窗 格 ) 将 得 到 一 个 方差 过 大 的 估计 . 很 多 曲线 估计 问题 都 在 寻 
求 方差 和 偏差 之 间 的 最 优 平衡 - 


20.1 偏差 -方差 平衡 
令 g 表示 一 个 未 知 的 函数 , 如 一 个 密度 函数 或 一 个 回归 函数 . 令 Gn 表示 9 的 


一 个 估计 . 记 Pala) 是 一 个 在 z 点 处 取 值 的 随机 函数 . 该 估计 是 随机 的 因为 它 依赖 
于 数据 , 见 图 20.1. 


Ga) 


a 


这 是 数据 的 一 个 函数 这 是 计算 从 ) 的 点 
20.1 曲线 估计 依 是 随机 的 , 因为 它 是 数据 的 函数 . 计算 8 的 点 z 不 是 随机 变量 
作为 损失 函数 , 将 用 积分 平方 的 误差 (ISE)?: 
U(9,Gn) = f (alu) -和 (jzav (20.1) 
关于 平方 误差 损失 的 风险 或 期 望 积分 平方 的 误差 (MISE) 为 


R(g,9) = E(zea) (20.2) 


O 还 将 用 到 其 他 的 损失 函数 , 结果 是 相似 的 但 是 其 分 析 非常 复杂 . 
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20.1 引 理 风险 可 以 写 为 
R(g,9n) = | t? (z)dz + J v(z)dz, (20.3) 


其 中 ， 
bz) = E(Gn(x)) 一 9g(z) (20.4) 


A nla) 在 国定 点 x 处 的 偏差 ,而 
v(e) = VGa(2)) = E( (n(e) - EGa(e)))) (20.5) 


A Gn(x) 在 国定 点 x 处 的 方差 . 


<e 光滑 程度 低 最 优 光滑 光滑 程度 高 + o> 


图 20.2 偏差 -方差 平衡 
根据 光滑 程度 其 偏差 增加 而 方差 减少 . 最 优 光滑 程度 , ERR, 极 小 化 了 风险 = 偏差 ?+ 方差. 


总 之 ， 


风险 二 偏差 十 方差 (20.6) 


当 数 据 被 过 光滑 化 时 , 偏差 项 变 大 而 方差 项 变 小 . 当 数 据 被 欠 光 滑 化 时 , 结论 
相反 , 见 图 20.2. 这 被 称 作 偏差 — 方差 平衡 . 最 小 化 风险 相当 于 寻找 偏差 与 方差 
的 平衡 . 
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20.2 H 方 图 


令 Xi ,Xn 在 区 间 [0,1] 上 为 IID 的 且 具 有 和 密度 函数 f. 在 区 间 [0,1] 上 的 限 
制 条 件 是 无 关 紧要 的 ;总 可 以 将 数据 变换 到 该 区 间 上 . 令 m 表示 一 个 整数 且 定 义 
窗 格 


B= 二)， B= 22), rem Ba = [7,1]. (20.7) 


定义 窗 宽 h= 1/m, $ vj 表示 B; 中 的 观测 数 , > P = vj/n, pj = Ja, f(u)du. 
直方 图 估计 可 以 定义 为 


Pi/h, zeB, 
Fala) = PB/h, ze Bo, 
Pm/h, ze Bm. 
可 以 写 得 更 简洁 些 
A= Bie € Bj). (20.8) 
j=1 


为 了 理解 该 估计 的 基本 想法 , 令 pj = fy, f(u)du, 又 注意 到 对 于 re By E h guh 
时 ， 


> Dp; d 
BR) = EBD = OE Hah fa), 


20.2 例 ”图 20.3 给 出 了 三 个 不 同 的 直方 图 , 它们 都 是 基于 从 天 文 测量 得 到 的 
1266 个 数据 点 . 每 个 数据 点 表示 某 个 星系 离 地 球 的 距离 . 这 些 星系 位 于 从 地 球 直接 
发 向 宇宙 空间 的 “ 笔 形 波 束 ” 上 . 因为 光速 是 有 限 的 , 看 到 越 远 的 星系 就 会 用 更 多 的 
时 间 . 在 考虑 寻找 一 个 好 的 偏差 方差 平衡 的 同时 , 选择 合适 的 窗 格 数 . 将 看 到 左上 
角 的 直方 图 由 于 窗 格 数 太 少 而 导致 过 光滑 和 偏差 过 大 ， 左 下 角 的 直方 图 由 于 窗 格 
数 太 多 而 导致 从 光滑 . 右上 角 的 直方 图 比较 合适 . 该 直方 图 反映 出 星系 具有 聚 类 现 
象 . 通过 观察 和 认识 星系 聚 类 的 大 小 和 数目 随时 间 变化 的 规律 , 可 以 帮助 字 宙 学 家 
了 解 宇宙 的 演变 . 

fale) 的 均值 和 方差 由 下 面 的 定理 给 出 . 

20.3 定理 ”考虑 国定 的 z 和 国定 的 m, 且 令 Bj 为 含有 x 的 窗 格 , 则 


Efa(e))=% 有 vio) = 2E. (20.) 
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图 20.3 天 文学 数据 的 三 个 直方 图 


左上 角 的 直方 图 具有 较 少 的 窗 格 . 左下 角 的 直方 图 具有 较 多 的 窗 格 . 右上 角 的 直方 图 恰好 合适 . 右 下 角 的 图 
给 出 了 风险 估计 与 窗 格 数 的 关系 


通过 方程 (20.9) 可 更 进一步 地 考察 偏差 -方差 平衡 . 考虑 某 个 ze By. 对 于 任何 其 
他 的 u € Bj, 


Fu) ~ f(x) + (u - z) f'(2). 
因此 


Pj -f f(u)du ~x J CEO 


=f(o)h +hf'(z) (a(s = 3) r 2), 


RTS 
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所 以 偏差 b(z) 为 


blz) =E(fa(z)) — f(z) = 4 — f(z) 
sth + ORG = 1/2) - 2) 


ok 人 

E Ty 是 窗 格 的 中 心 , 则 
/rsf roaa- - ) = 
eof 人- 


3 
= es 


-= f(x) 


因此 ， 
a) $ 2 SSi piz yah 
f (zjdz yh bP(z)dz ~ LY Eri 
Ta 
SESE a i [vera 
j=1 


注意 到 其 作为 h 的 一 个 增 函数 . 现在 考虑 方差 . 对 于 较 小 的 1 一 pj ~ 1, 所 以 


u(x) ~ ~ 
—f(a)h + hf'(x)(AG — 1/2) — x) 
nh? 


wf) 
nh? 


其 中 只 保留 分 母 项 , 所 以 i i 
f v(z)dz = ak 
注意 到 它 是 随 着 h 的 增加 而 递减 的 . 将 这 些 综合 起 来 , 就 会 有 
20.4 定理 ”假设 [(f’(u))?du < oo, 则 


RÊ f) © a f (F"(u))P2du + 去 : (20.10) 
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极 小 化 方程 (20.10) 的 值 ie 为 


1 6 1/3 
x = an (gr) (20.11) 
在 这 个 窗 宽 选 择 下 ， : 
Rifas f) © So (20.12) 


1/3 
其 中 C= (3/478 (par) : 


定理 20.4 是 非常 明显 的 . 可 以 看 到 在 一 个 最 优 的 窗 宽 选择 下 , MISE 以 n? 
的 速度 收敛 到 0. 作为 比较 , 很 多 参数 估计 的 收敛 速度 为 n. 较 慢 的 收敛 速度 是 
采用 非 参数 方法 的 代价 . 最 优 窗 宽 h 的 公式 具有 理论 价值 但 是 在 实际 中 用 处 不 大 ， 
因为 它 依赖 于 未 知 函数 f- 

一 个 实际 的 选择 窗 宽 的 方法 就 是 估计 风险 函数 然后 关于 h 极 小 化 . 回忆 损失 
函数 , 现在 将 其 记 为 h 的 函数 为 


Uh) = {hse 
= [Roiz -2 f Rodet [ Pee. 
最 后 一 项 不 依赖 于 窗 宽 h, BLUR MERE OP BMF 
Tih) = /Podz-2 /Roytodr 
将 EU) 视 为 风险 , 虽然 它 因为 常数 项 厂 f2(zjdz 而 不 同 于 真正 的 风险 . 
20.5 定义 “风险 的 交叉 验证 估计 为 


2 
Ñh) = J (fa) dz 一 Žž Enx) (20.13) 
i=1 


其 中 , f- 是 去 挤 第 i 个 观测 后 得 到 的 直方 图 估计 . 称 J(h) 为 交叉 验证 得 分 或 
估计 风险 


20.6 定理 ” 交 又 验证 估计 几乎 是 无 偏 的 ， 
E(J(z)) ~ E(J(z)). 


原则 上 , 需要 反复 计算 直方 图 估计 n 遍 去 得 到 Nh). 而 且 , 对 于 所 有 的 h 的 值 
都 要 这 样 做 . 幸运 的 是 , 还 有 个 简洁 的 公式 . 
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20.7 定理 ”下面 的 等 式 成 立 : 


n+l 


Ih) = wor G-A 2 LA 


(20.14) 
20.8 例 ”对 天 文 数据 的 例子 使 用 交叉 验证 . 交叉 验证 函数 在 其 最 小 值 处 非常 
平缓 . 73~ 310 之 间 的 任何 一 个 m 都 是 一 个 近似 的 最 小 值 点 , 但 是 其 直方 图 估计 在 
该 范围 内 变化 幅度 不 大 . 图 20.3 中 右上 角 的 直方 图 是 用 m = 73 的 窗 格 构造 的 . 右 
下 角 的 图 显示 了 估计 风险 的 , 或 更 精确 地 说 是 , 了 是 随 窗 格 数 变动 的 曲线 
接 下 来 想 要 构造 f 的 一 个 置信 集 . 假设 h 为 具有 mPOA RH 
= 1/m 的 一 个 直方 图 估计 . 的 确 不 能 对 真正 的 密度 f 的 详细 情况 给 出 可 千 
性 的 陈述 . 但 是 , 可 以 在 直方 图 估计 的 帮助 下 给 出 关于 可靠 性 的 陈述 . 最 后 ， 
定义 
ha) =E(f(z) =, re Bi， (20.15) 


其 中 , pj = fo, f(w)du. 可 以 将 Fale) 看 作 了 的 直方 图 版 . 
20.9 定义 “函数 对 (ln (zx), un (c)) 是 一 个 1 - o 置 信 带 ( 或 称 置信 包 络 ) 若 


了 (ka < fala) < ula), 对 所有 的 2)>1-a. (20.16) 


20.10 定理 m=m(n) 为 直方 图 falc) 中 的 窗 格 数 . 假设 当 n 一 oo 时 且 
m(n) 一 oo 时 有 m(n)logn/n 一 0. 定义 


tate) = (mxf Yi) ch)" 
Un(z) = (Vive) +e). (20.17) 


— Za/(am) [m 
=D Ve (20.18) 


则 (en (ae), ttn (2) 为 一 个 近似 的 1 一 a 置信 带 . 

证 明 这 里 给 出 一 个 证 明 的 梗概 . 由 中 心 极限 定理 得 , Pj < N(pj,pj(1 一 P;)/n). 
由 Delta 方法 , by < N(ypj.1/(4n)). 而 且 , 可 以 证 明 VY 而 之 间 是 近似 独立 的 . 因 
此 ， 


其 中 ， 


avai( vi- va) ~ Zj, (20.19) 
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其 中 , 21,… , Zm ~ N(0,1). & 


A= fa) < falz) < un(2), 对 所 有 的 = = {max | Vie- Vin@) 


< 中 
>c) 


则 


P(A: 


=P(max2vi| VB - VP; |> zerem) 


j 


s 
~p (max IZ; > zajam) < (Ia > zajam) 
j=1 
E 
Q 
=》 =a. 
j=1 ve 


20.11 例 ”图 20.4 给 出 了 天 文 数据 的 一 个 95% 的 置信 和 包 络 . 会 看 到 即使 有 超 
过 1000 个 数据 点 , 依然 存在 很 大 的 不 确定 性 


(Pi — [23 
h VA 


0.00 0.05 0.10 0.15 0.20 
图 20.4 天 文学 数据 的 95% 的 置信 包 络 , 窗 格 数 m = 73 


20.3 核 密度 估计 


直方 图 是 不 连续 的 . 核 密 度 估计 较 光滑 且 比 直方 图 估计 较 快 地 收敛 到 真 
正 的 密度 . 
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令 Xi ,Xn 表示 观测 数据 , 它们 来 自 f 的 一 个 样本 ， 在 本 章 中 , 核定 义 为 
任意 一 个 光滑 函数 K 使 得 K(x) > 0, f K(z)de = 1, JzK(z)dz = 0 并 且 of = 
J z2K(z)dz > 0. 核 的 两 个 例子 分 别 为 Epanechnikov 核 


3 (1-2? 
ko-l aC) Mews (20.20) 
0, 其 他 


与 高 斯 (ED) 核 K(z) = (2r)- /2e = /2. 
20.12 定义 ”给 定 一 个 核 K 与 一 个 正 数 h, 称 作 带宽 , 核 密度 估计 定义 为 


fla) = L 让 (人 证 ) (20.21) 


图 20.5 给 出 了 一 个 核 密度 估计 的 例子 . 核 估 计 有 效 地 在 每 个 数据 点 Xi 上 赋予 
大 小 为 1/n 的 权重 , 延伸 出 一 个 光滑 包 . 带宽 h 控制 了 光滑 的 程度 . 当 h 趋向 于 0 
时 , falc) 包含 了 很 多 尖峰 , 每 个 数据 点 都 是 一 个 尖峰 . 当 h 一 0 时 , 尖峰 的 高 度 趋 
于 无 穷 大 . Yh 00 时 , fa 趋 于 一 个 均匀 分 布 密度 函数 . 


一 
0 


图 20.5 “ 核 密度 估计 fa 
在 每 一 点 z, fal) 为 以 数据 点 Xi 为 中 心 的 核 函 数 的 平均 . 数据 点 由 短 的 坚 直 线段 标 出 
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20.13 例 图 20.6 给 出 了 用 三 种 不 同 的 带宽 对 天 文 数据 作出 的 核 密度 估计 . 在 
每 种 情况 下 都 用 高 斯 核 . 右上 角 的 合适 的 光滑 的 核 密度 估计 与 直方 图 估计 具有 相似 
的 结构 . 然而 , 用 核 估计 更 容易 发 现 其 聚 类 现象 . 


— 
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图 20.6 ”天 文学 数据 的 核 密度 估计 与 风险 估计 
左上 角 : 过 光滑 
HEM: 恰好 (由 交叉 验证 选 出 带宽 ). EFA: 欠 光 滑 . 右 下 角 ， 作 为 带宽 h 函数 的 交叉 验证 曲线 . 在 曲线 
取 值 最 小 的 地 方 选择 带宽 为 h 的 值 . 


为 了 构造 一 个 核 密度 估计 , 需要 选择 一 个 核 K 和 一 个 带宽 h 理论 和 经 验 都 表 
明 K 的 选择 不 是 关键 的 ". 但 是 , 带宽 的 选择 是 非常 重要 的 . 像 直方 图 一 样 , 可 以 
给 出 一 个 理论 结果 , 它 是 关于 估计 的 风险 是 如 何 依赖 于 带宽 的 . 


© 可 以 证 明 , 在 最 小 渐进 均 方 误差 的 意义 下 Epanechnikov 核 是 最 优 的 , 但 是 带宽 的 选择 的 确 是 最 
关键 的 . 
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20.14 定理 在 f 和 KK 的 弱 假 设 下 ， 
a 2, 
RU, Fa) = jokin f'E + Le Ae (20.22) 


HP, ok = far K(a)de. 最 优 的 带宽 为 


-2/5 1/5 —1/5 
At = 2 ， (20.23) 


nis 
HP, cl = [22K(z)dz, c2 = f K(z)?dz Beg = Sf" (a) dr. 在 这 个 带宽 选择 下 ， 
R(f,f) ~ oe 


对 于 某 个 常数 ca > 0. 
证 明 记 Kn(z,X) = hiK((z — X)/h) A fy = nD Kale, Xi). 因此 ， 


E[fa(2)] = E[Kn(x, X)LV(fa(z)] = nV[Ka(x, X)]. 现在 ， 
了 [Ka(z,X)] = i x (2 +) f(tat 
= J K(u)f(a — hu)du 
= [Kofro up) + PE preys ak 
=f(z) + zef") / et Fair 
HX f K(z)dz =1 H f 2K (ade = 0. 偏差 为 
E[Kn(x,X)] — f(a) ~ Zoh f'(a). 


相似 的 计算 得 到 ; 
viie = LEa, 
该 结果 可 以 由 对 偏差 平方 与 方差 的 和 积分 得 到 . 
可 以 看 到 核 估计 以 n-4/ 的 速度 收敛 而 直方 图 估计 以 较 慢 的 速度 n-2/ ae. 
可 以 证 明 , AIRE, 不 存在 一 个 收敛 速 度 比 ns 更 快 的 非 参数 估计 . 
he 的 表达 式 依赖 于 未 知 的 密度 f, 于 是 实用 性 不 高 . 像 直 方 图 估计 一 样 ,可 以 
用 交叉 验证 来 找到 一 个 带宽 . 因此 , 在 实际 中 通过 下 式 估计 风险 (ERB): 


Ñh) = / PP(z)dz — ZDA, (20.24) 
i=l 
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其 中 , fi 是 忽略 第 i 个 观测 后 的 核 密度 估计 . 
20.15 定理 ”对 于 任意 h > 0， 


E[J(h)] = ELCA) 


Fh) = 声 = = Kt (= z %) + 2 K(), (20.25) 


其 中 , K*(z) = K(x) 一 2K(z) H KO (z) = f K(z—y)K(y)dy. 特别 地 , BKA— 
个 N(0,1) 高 斯 核 则 玉 (2)(z) 是 N(0,2) 密 度 . 

这 里 将 选择 能 够 最 小 化 Ih)? 的 带宽 hs. 该 方法 的 合理 性 可 由 下 面 著名 的 定 
理 给 出 , 该 定理 归功 于 Stone. 

20.16 定理 (Stone 定理 ) ”假设 f AR. fr 表示 带宽 为 h 的 核 估计 且 令 hn 
表示 由 交叉 验证 得 到 的 带宽 hn, 则 

infa J(f(z) — f(z)) dz 

20.17 例 ”图 20.6 中 右上 角 的 图 是 基于 交叉 验证 的 . 这 些 数据 事先 都 进行 了 
四 会 五 入 取 整 , 这 将 给 交叉 验证 带 来 一 些 问题 . 具体 地 , 它 将 导致 最 小 值 点 为 h = 0. 
为 了 解决 这 个 问题 , 我 们 给 这 些 数据 加 上 少量 的 随机 正 态 干扰 . 这 样 的 话 , Ih) 变 
得 非常 光滑 且 有 个 定义 较 好 的 最 小 值 . 

20.18 注 不 要 假设 , 若 估计 了 是 波动 的 , 否则 交叉 验证 定 要 让 你 失望 了 . 眼睛 
并 不 是 一 个 好 的 风险 评价 者 . 

为 了 构造 置信 带 , 可 以 用 类 似 于 直方 图 一 样 的 思想 . 同 理 , 真实 密度 了 的 光滑 
版 "的 置信 带 为 


i (20.26) 


z-u 


fa = EG) = f K(i 
假设 密度 函数 定义 在 区 间 (a,b) 上 . MEA 


tal) = Fala) -g selz), un(z) = fala) +4 selz), (20.27) 


其 中 ， 


ba 
e 


se(z) = 一 二 


(2) =H Dita) - Fale), 
i=l 


O 对 于 大 的 数据 集 , f AX (20.25) 可 以 通过 快速 传 里 叶 变换 很 快 地 计算 得 到 - 
@ 这 是 一 个 对 文献 (Chaudhuri and Marron, 1999) 中 描述 的 置信 带 的 修正 版 . 
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其 中 , w 为 核 的 宽度 , 若 核 没有 有 限 的 宽度 则 取 w 为 其 有 效 宽度 , 即 核 不 可 被 忽略 
的 范围 . 特别 地 , 对 于 正 态 核 取 w = 3h. 
20.19 例 图 20.7 给 出 了 天 文 数据 的 近似 95% 置信 带 . 


30 


20 


10 


o 


0.00 0.05 0.10 0.15 0.20 
图 20.7 天 文学 数据 的 核 密度 估计 的 95% 置信 带 


现在 假设 数据 Xi = (Xir, , Xia) 为 d 维 的 . 核 估计 可 以 推广 到 d 维 情况 . 令 
hh 三 (加,… ,ha) 为 一 个 带宽 向 量 且 定 义 


f(z) = 2 2 Kn(z — Xi), ; (20.28) 
其 中 ， 
1 f(a xy 
Kil- Xi) = Ah {I *(5)}. (20.29) 


其 中 , 各，… , ha 为 带宽 . 为 简单 起 见 , 可 以 取 hy = sjh, 其 中 s; 为 第 7 个 变量 的 标 
准 差 . 现在 就 只 有 一 个 带宽 h 可 供 选择 了 . 用 与 一 维 情形 相同 的 计算 方法 ， 可 得 风 
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险 为 


| = afp 2,2 f f 
Ra) =30k [ea J ladda +r J Suhada 


Q K?(e)dz)4 
+ nhi- -ha ’ 


其 中 , fi 是 f 的 二 阶 偏 导数 . 最 优 带宽 满足 hi = eon, 这 将 产生 一 个 阶 数 
为 n-4/(4+4) 风险 . 从 这 个 事实 上 , 可 以 看 到 风险 会 随 着 维 数 的 增长 而 迅速 增长 , 该 
问题 常 被 称 为 维 数 灾难 . 为 了 理解 该 问题 的 严重 性 , 考虑 下 面 来 自 文献 (Silverman， 


1986) 的 表格 , 它 表明 了 当 密 度 为 多 元 正 态 且 最 优 带 宽 已 经 选择 好 的 情况 下 , 为 了 保 
证 在 0 处 的 相对 均 方 误差 比 0.1 小 , 所 需要 的 样本 量 如 下 : 


维 数 样本 量 


Searaae 
3 


这 的 确 是 个 坏 消 息 . 它 表明 在 一 个 10 维 问题 里 拥有 842000 个 观测 就 相当 于 在 
一 个 一 维 问题 里 拥有 4 个 观测 . 


20.4 非 参 数 回归 
考虑 点 对 (zl 六 ),… , (zn, Yn), 其 关系 为 
Y; = r(zi) + éi, (20.30) 


其 中 , E(ei) = 0， 用 小 写 体 记 作 zi, 因为 将 其 看 作 固定 的 . 可 以 这 样 做 , 因为 在 回 
BE, 只 有 Y 的 均值 关于 z 是 条 件 依赖 的 , 这 才 是 所 感 兴趣 的 . 想 要 估计 回归 函数 
r(z) = E(Y|X = 2). 

存在 很 多 非 参数 回归 估计 . 大 多 数 涉及 通过 对 Y 取 某 种 加 权 平 均 来 估计 7(z)， 
对 千 近 z 的 点 给 予 更 高 的 权重 . 一 个 常用 的 估计 就 是 所 谓 Nadaraya-Watson 核 估 
计 . 
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20.20 定义 ”Nadaraya-Watson 核 估计 定义 为 
F(x) = Dwi(z)¥, (20.31) 
i=l 
其 中 , K 为 一 个 核 且 其 权重 ui(z) 由 下 式 给 出 : 


ai(z) = Gh (20.32) 


该 估计 的 形式 如 下 : 首先 用 核 密度 估计 方法 估计 出 联合 密度 f(z,y) 再 将 其 代 
入 下 面 的 公式 : 


Syf(a,y)dy 
T F(z, y)dy ` 


20.21 定理 ”假设 V(ei) = 0?. Nadaraya—Watson 核 估计 的 风险 为 
4 4 7 2 
RG) © ( J °K%(z)dc) / ("w+ ef) dz 


2 2 
+ if ar (20.33) 


最 优 带宽 以 n-1/5 的 速率 递减 且 在 该 选择 下 其 风险 以 n-4/5 的 速率 递减 . 
在 实际 中 , 通过 极 小 化 交叉 验证 得 分 来 选择 带宽 h, 


rz) =EYIX =2) = f vf(ula)ay = 


Ñh) = > = Filz), (20.34) 
i=l 


其 中 , Pi 是 由 省 略 第 ; 个 变量 而 得 到 的 估计 . 幸运 的 是 , 存在 一 个 计算 了 的 便捷 的 
公式 . 

20.22 定理 ”了 可 以 写 为 
1 


(x /sx (ei)) 


20.23 例 图 20.8 给 出 了 来 自 BOOMERaNG(Netterfield et al., 2002), Maxima 
(Lee et al., 2001) 和 DASI(Halverson et al, 2002) 的 字 宙 微波 背景 (CMB) 数据 的 拟 
合 情 况 . 该 数据 包含 了 ”对 观察 值 (zl, Y1), ,(zn, Yn), 其 中 , zi PRES RR, Yi 称 


Fh) = Yo -= Fai)? (20.35) 
i=1 
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作 温 度 变 化 功率 谱 估 计 . 所 看 到 的 是 字 宙 微波 背景 辐射 中 的 声波 , 这 是 从 宇宙 大 爆 
炸 中 留 下 来 的 . BS r(z) 表示 真正 的 功率 谱 , 则 


Y; = r(zi) + éi, 

g g 
8 8 
8 8 
J 8 
F] g 

4 
8 8 
e T Tr a e 

a ar A 

久光 清 
E 3 
8 2 
: ai 
J H : 
: 3 
8 
z 200 400 600 800 1000 20 40 eo 80 100 120 

恰当 (使 用 交叉 验证 ) 带宽 


图 20.8 CMB 数据 的 回归 分 析 
第 一 个 拟 合 是 欠 光 滑 的 . 第 二 个 是 过 光滑 的 , 且 第 三 个 是 基于 交叉 验证 的 . 最 后 一 个 图 给 出 了 风险 估计 关于 
光滑 器 的 带宽 的 关系 . 数据 来 自 于 BOOMERANG, Maxima, 以 及 DASI. 


其 中 , e 是 一 个 均值 为 0 的 随机 误差 . r(z) 峰值 的 位 置 和 大 小 为 了 解 早 期 宇宙 的 状 
况 提供 了 有 价值 的 线索 . 图 20.8 给 出 了 基于 交叉 验证 的 拟 合 , 既 有 一 个 欠 光 滑 的 拟 
合 也 有 一 个 过 光滑 的 拟 合 . 交叉 验证 拟 合 表明 了 三 个 定义 好 的 峰值 的 存在 , 恰 如 大 
爆炸 的 物理 学 理论 所 预测 的 那样 . 

找到 置信 带 的 步骤 与 密度 估计 的 情况 是 类 似 的 . 然而 , 首先 需要 估计 o. 假设 
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zi 已 经 排 好 序 . 假设 r(z) 是 光滑 的 , 会 有 r(zita) 一 T(zi) ~ 0, 因此 
Yin — Y; = fen + en] 一 [ree + «] © €i41 — Gi, 


从 而 
V(r — Yi) Ve — €i) = Vn)+ V(e) = 20°. 


可 以 用 nn 一 1 个 Yin — Yi 的 差 的 平均 来 估计 o?. 因此 , 定义 


n=l 
Pea Lins -x (20.36) 
如 同 密度 估计 一 样 , 置信 带 是 对 真正 的 回归 函数 r 的 光滑 版 Fac) = EG, (2) 
作出 的 . 
核 回归 的 重信 带 
部 (z) 的 一 个 近似 1 — a 置信 带 为 
bala) = Fala) -q B(x), ulz) = Fala) +q@(2), (20.37) 


其 中 ， 


宽度 , 即 核 不 可 被 忽略 的 范围 . 特别 地 , 对 正 态 核 取 w = 3h. 


5 在 (20.36) 中 已 经 给 出 定义 , w 为 核 的 宽度 . 若 核 没有 有 限 宽度 则 取 w 为 有 效 


20.24 例 图 20.9 给 出 了 CMB 数据 的 一 个 95% 的 置信 包 络 . 可 以 充分 相信 
第 一 个 峰值 的 存在 和 位 置 . 对 于 第 二 个 和 第 三 个 峰值 的 情况 不 太 确定 . 写作 本 书 之 
时 , 有 很 多 更 加 精确 可 用 的 数据 ， 它们 看 来 可 以 提供 对 于 第 二 个 和 第 三 个 峰值 的 较 


精确 的 估计 . 


多 元 回归 X = (Xi, , Xp) 的 推广 很 直接 . 如 同 核 密度 估计 一 样 只 要 将 核 换 成 
一 个 多 元 核 即 可 . 然而 , 维 数 灾难 的 问题 依然 存在 . 在 某 些 情形 , 可 以 考虑 对 回归 函 


数 附加 一 些 约束 条 件 , 这 将 减少 维 数 灾难 . 例如 , 可 加 回归 模型 为 


P 
Y= Dry) +e. 
jal 


(20.38) 


L 


1000 2000 3000 4000 5000 6000 
L 


—t 


200 400 0 800 1000 
图 20.9 CMB 数据 的 95% 置信 包 络 
现在 只 要 去 拟 合 p 个 一 维 函 数 . 该 模型 可 以 通过 加 上 各 种 各 样 的 交互 项 而 被 扩充 ， 
例如 ， s 
Y =D 7K) + rj (XjXe) + € (20.39) 
j<k 


j=1 
可 加 模型 通常 用 所 谓 的 后 向 拟 合算 法 来 拟 合 . 
后 向 拟 合 


1. 初始 化 1(z1),… ,rp(zp)， 
2. 当 j=1,2,--, p BY, 

(a) $ a =Y; - D rs(zi)- 
si 


(b) S rj 表示 用 第 7 个 自 变量 去 回归 e 得 到 的 函数 估计 . 
3. 若 收敛 , 则 停止 . 否则 , 回 到 第 2 步 . 


可 加 模型 具有 避免 维 数 灾难 的 优点 而 且 可 以 被 快速 拟 合 , 但 是 它们 也 有 一 个 缺 
点 : 模型 不 是 完全 非 参数 的 . 换 句 话说 , 真正 的 回归 函数 r(x) 可 能 并 不 是 (20.38) 中 
的 形式 . 


20.5 BR 录 
置信 集 与 偏差 置信 带 不 是 由 密度 函数 或 回归 函数 计算 出 来 的 , 而 是 由 平滑 函 
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数 计算 的 . 例如 , 带宽 为 h 的 核 密度 估计 的 置信 带 是 通过 用 同样 带宽 的 核对 真正 的 
函数 光滑 化 后 计算 得 到 的 置信 带 . 对 真正 的 函数 构造 一 个 置信 集 是 非常 复杂 的 , 现 
在 给 出 其 解释 . 

令 fala) 表示 函数 f 的 一 个 估计 . fale) 的 均值 和 标准 差分 别 记 作 fala) 和 
sn(z), 则 


Sula) f(z) _ fal) = ful) , fale) = f(s) 
Sn(@) sn(z) Sn) 
典型 地 , 第 一 项 收敛 到 一 个 标准 正 态 分 布 , 我 们 借 此 构造 置信 带 . 第 二 项 为 偏差 
除 以 标准 差 . 在 参数 推断 里 , 偏差 通常 情况 下 比 估计 量 的 标准 差 小 , 所 以 这 项 当 样 
本 量 增加 时 会 收敛 到 0. 在 非 参 数 推断 里 , 最 优 的 光滑 方法 使 得 平衡 偏差 和 标准 差 
成 为 可 能 . 因此 第 二 项 即使 在 大 样本 情形 下 也 不 会 消失 . 这 意味 着 置信 区 间 在 真正 
的 函数 S 周围 将 不 是 对 称 的 . 


20.6 文献 注释 


两 本 非常 好 的 关于 密度 估计 的 书 分 别 为 (Scott, 1992; Silverman, 1986). 关于 非 
参数 回归 的 文献 是 非常 多 的 . 两 本 入 门 的 书 分 别 为 (Hirdle, 1990) 和 (Loader, 1999). 
后 者 着 重 介绍 一 类 被 称 作 局 部 似 然 的 方法 . 


20.7 J 题 
1. 令 Xi, Xn w f B® fa HATE boxcar 核 得 到 的 核 密度 估计 ， 


1 1 1 
K(y=d > ~2<7*2 
0, 其 他 
(a) 证 明 
ayy 1 pete?) a 
ERD = f p 10% 


ri 1 z+(h/2) z+(h+2) 2- 
vie =al tow- (fs 10a) | 
(b) 证 明 车 当 n > 00 MA h — 0 H4 nh — oo Rt, W fale) = f(z) 

2 从 本 书 网 站 上 下 载 法 医 工作 中 收集 到 的 至 玉碎 片 数据 . 用 直方 图 和 核 密度 估 
计 来 估计 第 一 个 变量 (折射 率 ) 的 密度 . 用 交叉 验证 去 选择 光滑 程度 . 用 不 同 
的 窗 宽 和 带宽 做 实验 . 讨论 其 相似 之 处 和 不 同 点 . 对 于 估计 量 构造 95% 的 置 
信 区 间 . 
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3. 考虑 第 2 题 中 的 数据 . SY 为 折射 率 且 令 z 为 铝 含 量 (第 4 个 变量 ). 用 非 参 
数 回归 来 拟 合 模型 Y = f(z) +e 用 交叉 验证 去 估计 带宽 . 对 于 估计 构造 95% 
的 置信 带 . 
证 明 引 理 20.1. 

证 明定 理 20.3. 

证 明定 理 20.7. 

证 明定 理 20.15. 

考虑 回归 数据 (zt, Y1), (En Yn). 假设 对 于 所 有 的 有 0 < zi < 1. 如 方程 
(20.7) 一 样 定义 窗 格 By. 对 于 ze By 定义 


区 


F(x) = Yj, 


其 中 , Yj 为 By 中 所 有 与 ri 对 应 的 Yi 的 均值 . 求 该 估计 的 近似 风险 . 从 该 风险 
的 表达 式 中 , 求 出 最 优 带 宽 . 风险 收敛 到 0 的 速度 是 多 少 ? 

. 证 明 在 对 于 r(z) 的 合适 的 光滑 性 假设 下 , 方程 (20.36) 中 的 3? 是 0? 的 一 个 相 
合 估计 . 

10. 证 明定 理 20.22. 


o 


$21% Ese aE 


本 章 将 要 研究 一 种 基于 正 交 函数 的 非 参数 曲线 估计 方法 . 首先 简要 介绍 正 交 函 
数理 论 , 然后 讨论 密度 估计 和 回归 . 


21.1 正 交 函数 与 Lo 空间 


令 v= (v1,v2,vs) 表示 一 个 三 维 向 量 , 即 三 个 实数 列 . 令 V 表示 所 有 此 类 向 量 
的 集合 . 若 a 为 一 个 标量 (一 个 数 ),w 为 一 个 向 量 , 定义 av = (avi, av, ava). Hik v 
Sw 的 和 定义 为 v+w= (vı + wi, 02 + wa, va + ws). 两 个 向 量 v 和 w 的 内 积 定义 
Hy (v, w) = È vw 一 个 向 量 的 范 数 (或 长 度 ) 定 义 为 


3 
lvl = Vw, v) = 4] >> 0?. (21.1) 
i=1 


若 两 个 向 量 满足 (v, w) = 0, 则 两 个 向 量 是 正 交 的 (或 垂直 的 ). 若 一 个 向 量 集中 
任意 两 个 向 量 是 正 交 的 , 则 该 集合 是 正 交 的 . 若 一 个 向 量 |u| = 1, 则 该 向 量 是 正规 
的 . 

令 $1 = (1,0,0), %2 = (0,1,0), 43 = (0,0,1). 这 些 向 量 被 称 作 V 的 一 个 规范 正 
交 基 , 因为 它们 具有 下 面 的 性 质 : 

(i) 它们 是 正 交 的 . 

(ii) 它们 是 正规 的 . 

(iii) 它们 构成 了 的 一 组 基 , 这 意味 着 对 于 任意 的 ve 7 可 以 写 为 ,9o, 63 
的 一 个 线性 组 合 3 

v= >> B55, (21.2) 
j=1 


其 中 , B = (bjo). 
例如 , 若 = (12,3,4), I v = 1291 + 362 + 46o. 存在 的 其 他 规范 正 交 基 . W 
m, 
oT A E ee 1 1 L 4 2 
a (a a Z) i (aw): sao (o-z) 
可 以 验证 这 三 个 向 量 也 构成 了 的 一 组 规范 正 交 基 . 同 理 , 若 ,为 任意 向 量 , 则 可 
以 记 为 


3 
v=} bihi, 
j=1 
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其 中 , By = (vj, v). 
例如 , Æ v = (12,3, 4), 则 


v = 10.971 + 6.36y2 + 2.86ws. 


现在 从 向 量 跳 到 函数 . 本 质 上 , 只 需要 将 向 量 换 成 函数 且 将 求 和 换 成 积分 就 可 
以 了 . 令 Lola, b) 表示 所 有 定义 在 区 间 [a,b] 上 的 函数 使 得 * f(z)?dz < 00, 


La(a,b) = f : [a,b] >R, i Jajzdz< oo}. (21.3) 


有 时 将 Lo(a,b) 记 为 L2. 两 个 函数 f,g e Lo 的 内 积 定义 为 | f(z)g(z)dz. 7 的 范 数 


为 
inl=y reer. (21.4) 


# J f(z)g(z)dz = 0, 则 这 两 个 函数 是 正 交 的 . 若 |f| = 1, 则 该 函数 是 正规 的 . 
车 对 于 每 个 了 有 [好 (z)dz = 1 且 对 于 i 关 j 有 /9i(z)4;(z)dz = 0, 则 函数 序 
列 pu, ba, 89，… 是 规范 正 交 的 . 若 与 每 个 由 都 是 正 交 的 函数 只 有 函数 0, 则 这 个 正 
交 序列 是 完备 的 . 在 这 种 情况 下 , 函数 由 ,4a, 和 se,… 构成 一 组 基 , 意思 是 若 了 E La 
则 了 可 以 写 为 " ~ 
F(a) = $ Biti), (21.5) 
j=l 


其 中 , B; = JP f(z)9;(z)dz. 
一 个 有 用 的 结果 是 Parseval 关系 式 , 即 


UPs f Pod = Yg = BP, (21.6) 
j=l 


其 中 , B = (G1, Ba,…). 
21.1 例 ”L2(0,1) 的 一 个 规范 正 交 基 的 例子 为 余弦 基 定 义 如 下 : 令 pol) = 1 
且 对 于 了 > 1 定义 
3(x) = V2cos(jrz). (21.7) 


前 6 个 函数 的 图 像 见 图 21.1. 
21.2 例 令 


Ha) = Va=asin( 27). 


x +0.05 


O 方程 中 的 等 式 意味 着 /(f(z) 一 fn(z))?dz 一 0, 其 中 ，fn(z) = È Ass(2)- 
= 
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SN 
WAV 


图 21.1 余弦 基 中 的 前 6 个 函数 


此 即 所 谓 “多 普 勒 函数 ”. 图 21.2 给 出 了 f 的 图 像 (左上 角 ) 且 其 近似 值 为 
J 
fala) = X B,05(2), 
j=1 


ew J = 5( 右 上 角 )， tata 和 200( 右 下 角 ). 当 J 变 大 时 , 可 以 看 到 f7(z) 越 接 
f(z). 系数 B; = Jo f(z)gji(z)dz 是 用 数值 方法 计算 得 到 的 . 


六 A 
WVAN HAS 


图 21.2 用 多 普 勒 函数 的 余 纺 基 展 式 来 对 其 作 近似 
函数 f( 左 上 ) 及 其 近似 fa(z) = 党 gj(z) BH J = 5( 右 上 ), 20( 左 下 ), 与 200( 右 下 )- 系数 
ar f(z)9;(z)dz 是 数值 计算 出 来 的 
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21.3 例 KE [-1,1] 上 的 Legendre 多 项 式 定义 为 


2@)= Se —1)), j=0,1,2,.…. (21.8) 


可 以 证 明 这 些 函 数 是 完备 的 且 是 正 交 的 , 并 有 


1 
J, P?(z)dz = zA (21.9) 


T 
可 以 得 到 函数 9j(z) = /(2F+1)/2P;(a),5 = 0,1,… PIR Lo(—1, 1) 的 一 组 规范 正 
交 基 . 前 几 个 多 项 式 为 

Po(z) =1, 

Pi(z) =z, 

P,(2) =5 (82? -1), 且 

P3(zx) =5 (52? 一 3z). 
这 些 多 项 式 可 以 用 下 面 的 递归 关系 式 解析 地 构造 出 来 : 


Qj + 1)@P;(a) —jP-i(z) 


fi (21.10) 


Py = 


系数 boba 是 与 函数 f 的 光滑 性 有 关 的 . 为 了 明白 这 一 点 , 注意 到 若 f 是 
光滑 的 , 则 其 导数 将 是 有 限 的 . 因此 期 望 对 于 某 个 人 KOPE < oo, Sep fF 
A F he BYR. 现在 考虑 余弦 基 (21.7) 且 令 f(z) = X bitile), 则 

= 


Í *(p(a))Pae = 25> Bn) 
0 j=l 


唯一 使 得 È (ns) 为 有 限 的 条 件 是 若 当 j 变 大 时 PB; 变 小 . 总 结 如 下 : 
i 


BHM f RAM, MA 了 变 大 时 系数 BHR. 
对 于 本 章 的 余下 部 分 , 除非 特别 声明 , FREER. 
21.2 密度 估计 


令 X1,… Xo 为 来 自 定义 在 [0, 1] 上 密度 为 f 的 分 布 的 II 观测. 假设 1 E Le 
可 以 记 2 
f(x) = > bigla), 
j=0 
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其 中 , 内 ,如 ，… 是 一 组 规范 正 交 基 . 定义 
Be Daa. (21.11) 
i=1 


214 定理 房 均值 与 方差 为 


EB) = VD) =, (21.12) 
其 中 ， 
SVED = [W0 -6Ha (21.13) 
证 明 ”均值 为 
Pe) 
=E(,(%:)) 
= [ hoai = 6, 
方差 的 计算 是 类 似 的 


FA, By 是 忆 的 一 个 无 偏 估计 . 试图 用 sox) 估计 /但 是 这 将 导致 一 个 
È 
非常 大 的 方差. 替代 地 , 考虑 估计 量 


J 
f(e) = LAoule). (21.14) 


项 数 J 是 一 个 光滑 参数 . 增加 , 将 减 小 偏差 但 将 增 大 方差. 出 于 技术 原因 , 将 了 限 
制 在 如 下 范围 内 : 
1<J&<p, 


其 中 , p= p(n) = Vn. 为 了 强调 风险 函数 对 于 J 的 依赖 , 把 风险 函数 记 为 RJ) 
21.5 定理 ”所 的 风险 为 


J oo 
RU) = 入 于 + > 8. (21.15) 
j=1 = j=J+1 
风险 的 一 个 估计 为 
J 52 P go? 
R= R-i), 21.16 
(J) D+ a) (21.16) 
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其 中 , a+ = max{a,0} H 
a= = DEW - 8). (21.17) 
为 了 促 动 该 估计 , 注意 到 33 是 o3 的 无 偏 估计 , 且 房 -33 是 B? 的 一 个 无 偏 估计 


取 后 者 正 的 部 分 , 因为 8? 不 能 为 负 . 现在 选择 1 < 了 < p 来 最 小 化 RF, f). 这 里 给 
出 一 个 概要 ， 


正 交 函 数 密度 估计 概要 


B= FLO. 


2. 在 1< J <p= Vn 上 选择 了 来 最 小 化 RU), HF, È BENE (21.16) 中 
给 出 . 
3.4 


L 


估计 量 fy 可 以 为 负 ， 若 对 探索 f 的 形状 感 兴趣 , 这 并 不 是 一 个 问题 ， 但 是 ， 
若 需 要 估计 为 一 个 概率 密度 函数 , 可 以 修改 该 估计 使 其 正规 化 ， 也 就 是 , 取 P = 
max{ fn(z),0}/ fo max{fa(u), 0}du. 

现在 对 f 构造 一 个 置信 带 ， 假设 用 J 个 正 交 函 数 来 估计 f， 本 质 上 是 估计 
fale) = PZG ) 而 不 是 真正 的 密度 f(z) = PIIG 因此 , 置信 带 应 该 被 视 


为 对 DE 构造 的 . 
21.6 定理 fy 的 一 个 近似 1 一 a 置信 带 为 (4(z),u(z)), 其中， 


(x) = falz) —c, ulz) = falz) +e, (21.18) 
其 中 ， 
[1 
c=K? at (21.19) 
且 


K= ymax, max|¢;(z)|. 


对 于 余弦 基 来 说 , K = V2. 
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证 明 这 里 给 出 证 明 的 概要 ， 令 /一 区 - 忆 )>， 由 中 心 极限 定理 , 局 ~ 
2 
N(6;,03/n). 因此 , B; = B; + 04¢;/Vn, 其 中 ,ej ~ N(0,1), 且 因 此 有 


Ke aa 
Lx- iss 073 < — week (21.20) 
n jz k j=l 
因此 , 近似 地 有 
K? K? K? 
e(z > de) < P(E > Ea) =a. 
Ha 


max| 方 (z) — f(2)| <max FNA Bl 


j=l 


J 
<VIK | SB; - 6)? 
j=l 


=VIKVL, 
其 中 , 第 三 个 不 等 式 来 自 于 Cauchy-Schwartz 不 等 式 ( 见 定理 4.8). 因此 ， 


P (mg fate) = fale) > EA) <e(VIK vI > rfia 
(vz > x22) 
-人 > de) 


21.7 P| 4 
f(z) = ae 0,1) + Ede 14;,0.1), 


其 中 , olz; u, 0) 表示 正 态 N(u, 0) 的 密度 函数 , E (m, , us) = (—1,-1/2,0, 1/2, 1). 
Marron 和 Wand(1992) 称 这 个 函数 为 “爪子 ”虽然 “Bart Simpson” 也 许 更 贴切 些 , 
图 21.3 给 出 了 真正 的 密度 和 基于 n= 5000 个 观测 值 的 密度 估计 以 及 95% 的 置信 
带 . 可 以 通过 变换 y = (z + 3)/6 使 密度 函数 绝 大 部 分 质量 都 在 0 和 1 之 间 . 


21.3 回 A 261 


0.0 0.2 04 0.6 08 1.0 


o 12 3 4 


04 


图 21.3 
上 图 是 Bart Simpson 分 布 (变换 为 其 绝 大 部 分 质量 都 处 于 0 和 1 之 间 ) 的 真实 密度 . 下 图 为 正 交 函 数 
密度 估计 及 其 95% 置信 带 


21.3 E 归 


考虑 回归 模型 
让 三 让 示人 (21.21) 


其 中 , et 是 独立 的 , 均值 为 0 且 方 差 为 o?. 先 关注 特殊 情形 , 其 中 , ri = i/n. 假设 
r € L2(0,1) 且 因此 可 以 写 


r(x) = 》 jgj(z)， (21.22) 


j=l 


其 中 , bj = 凡 7(z)9;(z)dz，91,92，… 为 [0,1] 上 的 一 组 规范 正 交 基 
定义 


B10), j=12,.. (21.23) 
i=l 
因为 房 是 一 个 平均 值 , 中 心 极限 定理 表明 B; 将 近似 服从 正 态 分 布 . 
21.8 定理 
了 2 
房 = N(B, =). (21.24) 
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证 明 8, 的 均值 为 
PDB) == E Emse) =: $row 人 
~ [road = p; 
其 中 , 近似 等 式 可 以 由 Riemann 积分 的 定义 得 到 E Anh(zi) 一 fo h(a)de, 其 中 ， 
=1/n. 方差 为 


VB) = ape V(Y; )¢ (a) 
=a 3 LMeo=2 cara nL ie) 
at [eae = ca 
上 面 最 后 等 式 因为 [93(z)dz =1. 


$ J 
F(z) = DBgi(z), 
j=1 
As 
RU) = 下 /ea -Po)jzdz 
为 估计 的 风险 . 5 
21.9 È tit Pala) = È Bjb;(x) 的 风险 R(J) 为 
r= 
RJ) = IZ + > B. (21.25) 
j=J+1 
为 了 估计 o?=V(ei), 用 
>- SB, (21:26) 
i=n-k+1 


其 中 ,= n/4. 为 了 促 动 该 估计 , 回忆 若 f 为 光滑 的 , 则 对 于 大 的 了 有 B; s 0. 因 
此 , 对 于 了 > k, 房 ~ N(0,07/n), 因此 , Â; = oZ;/Vn, 其 中 ， Z; ~ N(0,1). 因此 ， 
n n 2 
eat 房 = 工 Bi 
7 P ERGa) 
=% > B= Za. 


isn—k+1 


v 
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因为 个 正 态 分 布 平方 和 具有 xk 分 布 ， 现在 EG) =k H EG?) ~ o. mE, 
VOR) = 2k 因此 当 n 一 00 时 有 V(6?) = (04/k?)(2k) = (204/k) > 0. 因此 期 望 从 
为 o2 的 一 个 相合 估计 . 选择 k = 0/4 并 没有 什么 特别 . 任何 一 个 随 着 n 以 合适 的 
速度 递增 的 上 就 满足 了 . 

用 下 式 估计 风险 : 


RJ) = 十 > (@ £ =) : (21.27) 


j=J+1 nly 


21.10 例 图 21.4 给 出 了 多 普 勒 函数 f HARA n= 2048 个 来 自 下 面 模型 
的 观测 : 
Y; = r(ai) + éi, 


其 中 zi = i/n ei ~ N(0,0.12)， 该 图 给 出 了 数据 和 函数 估计 的 图 像 ， 该 估计 基于 
了 = 234 个 项 . 


图 21.4 来 自 于 多 普 勒 检验 函数 及 其 估计 函数 的 数据 ( 见 例 21.10) 


现在 准备 给 出 该 方法 一 个 完整 的 描述 . 


正 交 序列 画 明 估计 
1. 令 a 
B= lI), j= on. 
i=1 
2.4 N 
ea" R, (21.28) 
i=n—k+1 


HH, kw n/4. 


264 第 21 章 正 交 函 数 光滑 法 


3. 对 于 1< J <n, 计算 风险 估计 


eS a 
Ry) a J i a E 
S GAG F 
4. 选择 了 e {1, ,n} 来 极 小 化 RU). 
5. 令 


A 
Fa) = BGs(z). 
= 


最 后 , 转向 置信 带 . 如 前 面 所 说 , 这 些 置 信 带 并 不 是 为 真正 的 函数 r(z) 构造 的 , 而 是 
J 
对 函数 rr(z) = Bj9i(z) 的 构造 的 . 
£E 


21.11 定理 “假设 估计 个 是 基于 I PAH, 5 是 如 同方 程 (21.28) 一 样 定义 的 . 
假设 I<n—-k+1. ry 的 一 个 近似 1 一 a REPA (bu), 其 中 ， 


(x) =Fr(z)—c, u(x) =Fa(z) +c, (21.29) 


3 了 
on See, a(z) = Lae), 


G 已 在 方程 (21.28) 中 给 出 . 
cae > Pe 
证 明 L=- A) 由 中 心 极限 定理 , 房 = N(B;,07/n). At, B; = 
E 
Bi +oej/ yn, 其 中 ,6 ~ N(0,1) E 


因此 


J 
Fa) -rsl < X lall — Bi 


j=l 


J J 
AEA -0 
j=l j=l 


<a(z)VL 
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由 Cauchy-Schwartz 不 等 式 ( 见 定理 4.8), 所 以 


reli ye) x(a ie) 


其 结果 自然 得 证 . 

21.12 例 图 21.5 给 出 了 多 普 勒 信号 的 置信 包 络 . 第 一 个 图 是 基于 J = 234( 极 
小 化 风险 估计 的 JE). 第 二 个 图 是 基于 J = 45 ~ Yn. 较 大 的 J 将 产生 一 个 高 分 
辨 率 的 估计 , 但 是 以 较 宽 的 置信 带 为 代价 . 小 的 J 产生 一 个 低 分 辩 率 的 估计 , 但 是 
具有 较 窄 的 置信 带 . 


图 21.5 多 普 勒 检验 函数 的 估计 和 置信 带 
nn = 2048. 第 一 个 图 : J = 234 项 . 第 二 个 图 , J = 45 W. 


目前 为 止 , 已 经 假设 ri 具有 {1/n,2/n,… ,1} 的 形式 . 若 zi 在 区 间 [a,b] 上 , 则 
可 以 对 其 作 变换 使 其 在 区 间 [0,1] 上 . 若 ri 不 是 等 间隔 的 , 前 面 已 经 讨论 的 方法 依 
然 适用 , 只 要 zi 填 满 区 间 [0,1] 并 且 没 有 过 多 地 堆积 在 一 起 . 若 想 要 把 ri 当 作 随机 
变量 而 不 是 看 作 固定 的 , 则 该 方法 需要 较 大 的 调整 , 在 这 里 不 予 讨论 . 


21.4 小 波 


假设 回归 函数 f 在 某 点 z 有 一 个 急剧 的 跳 路 , 但 是 f 在 其 他 点 是 非常 光滑 的 . 
这 样 的 函数 被 称 作 空间 非 齐 性 的 . 多 普 勒 函数 就 是 空间 非 齐 性 函数 的 一 个 例子 ; 它 
关于 大 的 > 是 光滑 的 而 关于 小 的 z 是 不 光滑 的 . 
用 迄今 为 止 讨论 过 的 方法 来 估计 这 样 的 了 是 非常 困难 的 若 用 余弦 基 且 只 保留 
” 低 阶 项 , 将 失去 峰值 ; 车 允许 高 阶 项 发 现 峰值 , 但 是 使 得 曲线 的 其 余部 分 波动 剧烈. 
核 回归 亦 是 如 此 . 若 用 一 个 大 的 带宽 , 把 峰值 光滑 掉 ; 若 用 一 个 小 的 带宽 , 将 发 现 峰 
值 , 但 是 使 得 曲线 的 其 余部 分 波动 剧烈 . 
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估计 非 齐 性 函数 的 一 个 方法 是 用 一 个 更 加 细致 的 基 ， 这 个 基 多 许 在 某 个 小 区 域 
内 放置 一 个 “ 尖 头 信号 ”而 不 在 别处 添加 波动 . 在 本 部 分 ， 将 描述 一 类 特殊 的 被 称 作 
小 波 的 基 , 旨 在 解决 这 个 问题 . 用 小 波 作 统 计 推断 是 一 个 广 大 而 且 活路 的 领域 . 将 
只 讨论 它 的 一 些 主要 思想 来 领略 该 方法 的 意味 . 

首先 讨论 一 类 特殊 的 小 波 , 即 所 谓 Harr 小 波 ，Harr 父 小 波 或 Harr 尺度 函 


数 定义 为 
1, 0<z<1, 
gz) = { 0, 其 他 . (21.30) 
Harr 母 小 波 定义 为 
-1l, 0<2< = 
v(x) = | 1 2 (21.31) 
1, 3<r<1. 
对 于 任意 的 整数 7 和 上 定义 
Wik(z) = 27/7 (24x — k). (21.32) 


函数 vie 具有 和 相同 的 形状 , 但 是 它 通 过 因子 29/2 作 了 拉 伸 变 换 ， 同时 又 通过 
因子 大 作 了 平移 变换 . 

图 21.6 中 给 出 了 一 些 Haar 小 波 的 例子 . 注意 到 对 于 大 的 j, Vik 是 一 个 非常 局 
部 化 的 函数 . 这 就 有 可 能 在 一 个 地 方向 函数 添加 一 个 尖 头 信号 而 不 在 别处 添加 波 
动 . 增加 7 就 像 在 显微镜 中 增加 分 辩 率 来 观察 一 样 . 用 专业 术语 来 说 ， 就 是 小 波 为 
ZL2(0,1) 提供 了 一 个 多 分 辨 分 析 . 


2 2 
1 1 
0 0 
-1 -1 


-2 -2 


图 21.6 一 些 Haar 小 波 
左 : 母 小 波 V(x); 右 : 2,2(z) 


Wi = {wxr, k=0,1,.… ,27— 1} 
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为 经 过 拉 伸 变换 和 平移 变换 后 的 分 辨 率 为 j 的 母 小 波 集 . 
21.13 定理 HARK 
[owo w Wa } 


A L2(0,1) 的 一 组 规范 正 交 基 . 
由 该 定理 可 以 用 这 组 基 展开 任何 函数 f e Lo(0,1). 因为 每 个 Wi 本 身 也 是 一 
个 函数 集 , 将 展 式 写 为 如 下 的 一 个 双重 求 和 ， 


œ 27-1 


Fz) = ad(z)+》 SO Bindie(), (21.33) 


j=0 k=0 
其 中 ， 
a= fea, Br = EO 


称 a 为 尺度 系数 , Bin 被 称 作 清晰 度 系 数 . KARA 


J-1%-1 


Sala) = agla) + > D> Beds n(@) (21.34) 


j=0 k=0 


是 分 辨 率 为 7 的 f 的 近似 函数 . 该 和 的 所 有 项 数 为 


J-1 
1+》 2 =1427-1=27. 
j=0 


21.148) 图 21.7 给 出 了 多 普 勒 信号 的 图 像 以 及 用 J = 3,5 和 J = 8 的 重新 
构造 . 
Harr 小 波 是 局 部 化 的 , 也 就 是 说 在 一 个 区 间 之 外 它们 都 为 0. 但 它们 是 不 光滑 
的 . 自然 要 问 是 否 存 在 从 一 个 正 交 基 产生 的 光滑 的 、 局 部 化 的 小 波 . 1988 年 , Ingrid 
Daubechies 证 明了 这 样 的 小 波 的 确 存在 的 . 这 些 光滑 的 小 波 是 难以 刻画 的 . 它们 可 
以 由 数值 方法 构造 出 来 但 是 没有 光滑 小 波 的 表示 公式 . 为 了 简单 起 见 , 将 继续 使 用 
Harr 小 波 . 

考虑 回归 模型 Yi = r(zi) + cei, FEH ei ~ N(0,1) E zi = i/n. 为 了 简化 讨论 ， 
对 于 某 个 了 假设 n= 27. ; 

用 小 波 作 估计 与 用 余弦 基 (或 多 项 式 ) 作 估计 之 间 有 一 个 显著 的 差别 . 用 余弦 
基 的 话 , 对 于 某 个 J 用 了 所 有 的 项 1 < j < J. 项 数 J 为 一 个 光滑 化 参数 . 用 小 波 
的 话 , 用 一 个 所 谓 痊 值 的 方法 来 控制 光滑 程度 , 其 中 若 某 项 的 系数 大 则 保留 函数 近 
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sf 
= 

PE 

zá =] 
3 34 
be 3 
z = 
| | 
a] 34 
34 *| 
34 3 


图 21.7 多 普 勒 信号 及 其 重建 f(x) = ag(z) + Es Bie (2) 
分 别 基 于 J=3,J=5RI=8 


似 中 的 该 项 , 否则 , 就 丢掉 该 项 . 存在 许多 形式 的 阀 值 . 最 简单 的 被 称 作 严格 通用 效 
值 . 令 J = Ib(n) 并 定义 


a= 7 YY A Dye== nE vul (21.35) 


对 于 0<j<J-1. 


Harr 小 波 回归 


1. 按照 (21.35) 中 的 方法 计算 人 和 Djk, 对 于 0<j<J-1. 
2. 估计 o, 见 (21.37). 
3. 应 用 通用 阁 值 


2logn 
fan | 2 ey eas tS P 中 (21.36) 


Jaana 
4. & f(z) = d(x) + > Pik Bsavix(z)- 
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实际 上 , 并 不 用 (21.35) 计算 Sk 和 Dyn. 相反 , 用 速度 很 快 的 离散 小 波 变 

换 (DWT). Harr 小 波 的 DWT 在 附录 中 给 出 了 其 相关 描述 . o 的 估计 为 
$= Vix median(DJ_1x| ee 237- 一 D 

o 的 估计 可 能 看 起 来 比较 奇怪 . 它 与 用 余弦 基 作 出 的 估计 是 相似 的 , 但 是 它 对 于 剧 
烈 的 峰值 变化 是 不 敏感 的 . 

为 了 理解 通用 阀 值 背后 的 直观 意义 , 考虑 没有 信号 的 情况 , 也 就 是 , 当 bje = 
0( 对 于 所 有 的 了 A k) 时 . 

21.15 定理 ”假设 对 于 所 有 的 了 和 上 大 有 Bjk = 0, 并 且 令 By ARMM 
it. 则 当 n 一 oo tt, 


(21.37) 


P( 对 于 所 有 的 jk Bik =0) > 1. 


证 明 ”为 了 简化 证 明 , 假设 o 是 已 知 的 . 现在 Dje ~ N(0,a2/m). 将 用 Mill 不 
等 式 (定理 4.7): HZ ~ N(0,1) 则 P(|2| > < (e/t), 其 中 ,c= V277 为 一 
个 常数 . 因此 ， 


Pmax [Dyal >A) <SOPUDsal > 2) = Fr ad > YE) 


1 


0.4 0.2 0.0 0.2 0.4 


1 


0.0 0.2 04 06 08 10 


图 21.8 用 Harr ARNE AREE ea BAT 
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21.16 P| ”考虑 Yi = r(zi) + coei, 其 中 , f 为 多 普 勒 信号 , o = 0.1 H n = 2048. 
图 21.8 给 出 了 数据 的 图 像 与 用 通用 闪 值 作出 的 估计 函数 .当然 , 既然 Harr 小 波 不 
是 光滑 的 , 该 估计 也 不 光滑 . 但 是 , 该 估计 是 非常 精确 的 . 


21.5 附 录 


Harr 小 波 的 DWT. 令 y X Y: 的 长 度 为 n WARES J = lbz(n). 产生 具有 下 
列 元 素 的 一 列 D 
Dllo]),… , DIU — 1). 


将 vy/Vn 赋值 给 temp: 
temp + Yy/Vn. 
然后 作 下 面 的 循环 : 
for( in (J—1):0){ 
me 2 
I «© (1;m) 
Dipl) = (templen templ2*+D ~1)) /V2 


temp = (e * I] + temp|(2* I) — 1) /v3 
} 


21.6 文献 注释 


(Efromovich, 1999) 是 一 本 正 交 函 数 方法 的 参考 书 ， 还 可 参见 (Beran，2000; 
Beran and Dümbgen, 1998). 关于 小 波 的 介绍 可 以 参考 (Odgen, 1997). 更 加 理论 的 
论述 可 以 在 (Hidle et al., 1998) 中 找到 . 用 小 波 作 统 计 估 计 的 理论 被 很 多 作者 发 
展 起 来 , 特别 是 David Donoho 和 Johnstone. 参见 (Donoho and Johnstone, 1994; 
Donoho and Johnstone, 1995; Donoho et al., 1995; Donoho and Johnstone, 1998). 


21.7 J 题 


1. 证 明定 理 21.5. 
2. 证 明定 理 21.9. 
3. 令 
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A 


证 明 这 些 向 量具 有 范 数 1 且 是 正 交 的 . 
证 明 Parseval 等 式 方程 (21.6). 


5. 画 出 前 5 个 Legendre 多 项 式 的 图 像 . 用 数值 方法 验证 它们 是 正 交 的 . 


D 


x 


op 


用 余弦 基 在 区 间 [0,1] 上 展开 下 面 的 函数 . 对 于 (a) 和 (b), 解析 地 求 出 系数 2. 
对 于 (c) 和 (d), 用 数值 方法 求 出 系数 B;, BI 


N 


s= f rws) 


r=1 


对 于 某 个 大 的 整数 N. 然后 再 画 出 部 分 和 和 分 8 Bi;9;(z) 随 n 值 变 大 的 图 像 . 
(a) f(a) = Vicos(37z). a 
(b) f(z) = sin(nz). 
(c) f(z) = 2 hjK(z-—t;), $P, K (t) = (1+sign(t))/2. # x < 0, sign(x) = 一 
# x = 0, sign(x) = 0. # x > 0, sign(x) = 1. 


(t;) = (0.1,0.13, 0.15, 0.23, 0.25, 0.40, 0.44, 0.65, 0.76, 0.78, 0.81), 
(hj) = (4, -5, 3, —4, 5, —4.2, 2.1, 4.3, -3.1, 2.1, 一 4.2). 


(a) f= Vaal -sn (ts) 

考虑 本 书 网 站 上 的 玻璃 碎片 数据 . 令 Y 为 反射 率 , IFS X 为 铝 含量 (第 4 个 变 

it). 

(a) 用 余弦 基 方 法 作 一 个 非 参 数 回归 来 拟 合 模型 Y = f(x) +e 这些 数据 并 不 
是 在 一 个 正规 的 坐标 方 格 上 . 在 估计 函数 时 忽略 这 点 (但 是 要 根据 z 来 得 
选 数 据 ). 给 出 一 个 函数 估计 , 一 个 风险 估计 和 一 个 置信 带 . 

(b) 用 小 波 方法 来 估计 f- 

证 明 Harr 小 波 是 正 交 的 . 

再 考虑 多 普 勒 信号 : 


fle) = Val a) sin( 275) - 
Ay n= 1024, 0 = 0.1, 并 令 (TZ1,… ,zn) = (1/n,… ,1). 产生 数据 
Y; = f (ai) + oe, 


其 中 ,  ~ N(0,1). 
(a) 用 余弦 基 方法 拟 合 曲线 . 对 于 J = 10, 20, … , 100 画 出 函数 估计 与 置 
信和 带 . 
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(b) 用 Harr 小 波 来 拟 合 曲线 . 
10. (Harr 密度 估计 ) ”对 于 区 间 [0,1] 上 的 某 个 密度 f, 令 X1,… , ~ f. 来 考虑 
构造 一 个 小 波 直方 图 . 令 $ 与 少 为 Harr 父 小 波 与 母 小 波 . 记 


J-12-1 


f(z) ~ 92) + OY Bievin(@), 


j=0 k=0 


其 中 , Js lb(n). $ 
Bia = = w(x). 
i=l 


(a) 证 明 房 * 为 Bj 的 一 个 无 偏 估计 . 
(b) 定义 Harr 直方 图 


n B 2-1 =, 
Fle) = (2) + 2 YS 房 kWjx(z)， 


j=0 k=0 
对 于 0<B<J-1. 
(c) 求 出 一 个 以 B 为 函数 的 MSE 的 近似 表达 式 . 
(d) 从 密度 Beta(15,4) 中 产生 n = 1000 个 观测 . 用 Harr 直方 图 估计 密度 . 用 
丢掉 一 个 的 交叉 验证 选择 B. 
11. 在 本 题 中 , 将 探索 方程 (21.37) 的 基本 想法 . 令 X1,… ,Xn ~ N(0,07). 令 
~ -median(|X1|,.… ,|Xnl) 
Syn 0.6745 i 
(a) 证 明 E(5) = o. 
(b) 模拟 来 自分 布 N(0,1) 的 n = 100 个 观测 . 计算 Al vc 的 估计 . 重复 1000 
次 并 比较 其 MSE. 
(c) 重复 (b) 但 是 向 数据 中 添加 一 些 奇异 点 . 模拟 每 个 来 自分 布 N(0,1) 的 概 


率 为 0.95 的 观测 , 再 模拟 每 个 来 自分 布 N(0, 10) 的 概率 为 0.95 的 观测 . 
12. 用 Harr 小 波 基 来 重 做 第 6 题 . 
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22.1 引 言 


从 一 个 随机 变量 X 来 预测 另 一 个 离散 的 随机 变量 Y 的 问题 被 称 作 是 分 类 , 或 
有 指导 的 学 习 , 或 判别 , 或 者 称 为 模式 识别 . 
考虑 ID 数据 (Xa, Y1), (Xn Yn), 其 中 ， 


Xi = (Xas Xia) EX CR? 


为 一 个 d 维 向 量 且 Yi 在 某 个 有 限 集 》 中 取 值 ， 一 个 分 类 规则 就 是 一 个 函数 h : 
XY. 当 观 测 到 一 个 新 的 X, 预测 Y 为 AX). 

22.1 例 “这 里 给 出 了 一 个 例子 , 数据 是 自己 构造 的 . 图 22.1 画 出 了 100 个 数 
据 的 散 点 图 . 协 变量 X = (Xi, Xo) 是 2 维 的 , 而 输出 变量 Ye Y = {0,1}. Y 的 值 
在 图 中 被 标示 出 来 , 其 中 , 三 角形 表示 Y = 1 而 正方 形 表示 Y = 0. 图 中 还 给 出 了 
用 实 线 表示 的 一 条 线性 分 类 规则 . 该 规则 的 形式 为 


1, a@+bix1 + bere > 0, 
0, 其 他 . 


在 直线 上 面 的 被 分 类 为 0, 而 在 直线 下 方 的 被 分 类 为 1. 


图 22.1 两 个 协 变量 和 一 个 线性 决策 界 
A 表示 Y = 1, D 表示 Y = 0. 这 两 个 组 被 线性 决策 界 很 好 地 分 高 或 许 看 不 到 像 这 样 的 真实 数据 . 


22.2 例 “回忆 例 13.17 中 的 冠 心病 风险 因子 研究 (CORIS) 数据 . 其 中 含有 462 
个 来 自 南非 的 3 个 农村 地 区 是 年 龄 为 15~64 岁 的 男性 . 输出 变量 Y 表示 出 现 冠 心 
病 (Y = 1) 和 没有 出 现 冠 心病 Y = 0). 还 含有 9 个 协 变量 : 收缩 压 , 累积 烟草 量 
(kg), 1dl( 低 密度 脂 蛋 白 ), 肥胖 症 , fambist( 家 族 心脏 病史 ), typeA(A 型 行为)， 多 指 ， 
酒精 (当前 酒精 消耗 量 ) KER. 用 基于 两 个 协 变量 收缩 压 和 烟草 消耗 量 的 LDA 方 
法 计算 了 一 个 线性 决策 界 . 稍 后 再 解释 LDA 方法 . 在 这 个 例子 中 ， 分 组 是 非常 困难 
的 . 事实 上 , 用 这 个 分 类 规则 的 话 , 462 个 对 象 中 有 141 个 被 错误 分 类 . 
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在 这 里 , 值得 重 温 统 计 学 /数据 挖掘 词典 如 下 : 


统计 学 计算 机 科学 aX 

分 类 有 指导 学 习 KX 预测 一 个 离散 变量 Y 
数据 训练 样本 (CCXn Yn) 
协 变量 特征 Xi 

分 类 器 假设 Bath: 二 一 了 

估计 学 习 找到 一 个 好 的 分 类 器 


22.2 ”错误 率 与 贝 叶 斯 分 类 器 


目标 是 要 找到 一 个 能 够 得 到 精确 预测 的 分 类 规则 h. 首先 有 下 面 的 定义 . 
22.3 定义 ”一 个 分 类 器 的 真实 误差 率 ? 为 


L(h) =P({h(X) # Y), (22.1) 
而 经 验 误差 率 或 训练 误差 率 为 
Bath) = ESA) A Ya. (22.2) 
i=l 


首先 考虑 特殊 情形 , 其 中 , Y = {0,1}. > 
r(z) = E(Y|X = 2) = P(Y =1|X =z) 
表示 回归 函数 . 由 贝 叶 斯 定理 可 以 得 到 


r(z) = P(Y = 1|X = z) 
= f(zlY = DP(Y =1) 
~ f(zlY = DP(Y = 1) + f(el¥ = 0)P(Y =0) 
4 "fi(z) 
= Zila) + (1 aoe) (22.3) 


其 中 ， 
folz) =f(z|Y = 0), 
fi(z) =f(zlY = 1), 
x =P(Y =1). 
O 也 可 以 采用 其 他 的 损失 函数 . 为 简单 起 见 这 里 将 用 误差 率 作为 损失 函数 


22.2 错误 率 与 贝 叶 斯 分 类 器 ao 


22.4 定义 贝 叶 斯 分 类 规则 h* 为 


1 
各 (z) = { L r@)>> (22.4) 
0, Hie. 


集合 D( ={z:P(Y = 1|X = z) = P(Y =0|X =2)} 称 为 决策 边界 . 


注意 ! 贝 叶 斯 规则 与 贝 叶 斯 推断 是 无 关 的 . 既 可 以 用 频率 学 派 的 方法 , 也 可 以 
用 贝 叶 斯 方法 来 估计 贝 叶 斯 规则 . 
贝 叶 斯 规则 可 以 写成 一 些 等 价 的 形式 : 


ra= { h s 1|X = z) > P(Y =0|X = 2), (22.5) 
Al 
wo fh the) >A-)fo@), 
h*(a) -{ 0 eth. (22.6) 
22.5 EK 贝 叶 斯 规则 是 最 优 的 ， PH h 是 任何 其 他 分 类 规则 , 则 L(h*) < 
L(h). 


因为 贝 叶 斯 规则 依赖 于 某 些 未 知 的 基 , 所 以 需要 用 数据 来 估计 由 叶 斯 规则 . 冒 
过 于 简单 化 之 风险 , 仅 给 出 3 种 主要 的 方法 : 

1. 经 验 风险 极 小 化 ;选择 一 组 分 类 器 集 H FELRE h e H 使 得 能 够 极 小 化 
L(h) 的 某 个 估计 . 

2. 回归 : 找到 回归 函数 7 的 一 个 估计 他 并 定义 


1 
R > 
， 其他. 
3. 密度 估计 对 于 下 =0 从 天 来 估计 fo, MF VN =1 从 Xi 来 估计 i, 并且 
AFan VY. 定义 
i=l 
DP freee ae a ee 
Ala) = PY = IX =) = +0 -DR 
以 及 


1 
Rlz) = 1, F(z)> 2 
0, ”其 他 . 


现在 来 推广 到 Y 取 值 超过 两 个 的 情形 如 下 : 
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22.6 定理 ”假设 Ye y= {1,…,K}. 最 优 规 则 为 


A(x) = arg max,P(Y = k|X = z) (22.7) 
= arg max, Tk fx(x), (22.8) 

其 中 ， 
PY =kIX =2) = Ao, (22.9) 


Tr = P(Y =r), fr(z) = f(z|Y =r) A arg max, 表示 “使 表达 式 极 大 化 的 大 值 .” 


22.3 ”高 斯 分 类 器 与 线性 分 类 器 


也 许 分 类 问题 最 简单 的 方法 就 是 采用 密度 估计 的 思路 并 且 假设 密度 是 一 个 参 
数 模型 ,假设 = {0,1} 并 且 folz) = f(zlY = 0) 与 f(a) = f(zlY = 1) 都 是 多 元 
高 斯 分 布 ， 


fr(z) = Emm {$e — pe) TO (2 -— m)}, k=0,1. 


因此 , XIY = 0 ~ N(uo, Xo) E X|Y = 1 ~ N(m, 21). 
22.7 定理 # X|Y =0~ N(po, Zo) E X|Y = 1 ~ N(m, Z1), 则 贝 叶 斯 规则 
A 


bs E 
ea- a es (2) tie (£). (22.10) 
0， H, 
其 中 ， 
1} (2) =(e@—pi)TO(e@-pi), i=1,2 (22.11) 


A Mahalanobis 距离 . 表达 贝 叶 斯 规则 的 一 个 等 价 途径 是 
h* (x) = argmaxkok(z)， 


其 中 ， 
1 1 = 
ôk(2) = —5 log |x| — 5(@ — wx)" Ep (E — we) + log me, (22.12) 


HA |4| 表示 矩阵 4 的 行列 式 . 


上 面 的 分 类 器 的 决策 界 是 二 次 的 , 所 以 该 方法 被 称 作 二 次 判别 分 析 (QDA). 在 
实际 中 , 用 T, p1, u2, So, Dı 的 样本 估计 来 代 蔡 真 值 , 即 
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1 P 1 "e 全 
So = 一 》 (ioOG 一 7，S = 一 》 (Xi -f)(Xi- i)". 
"0 to M Yel 


其 中 no = D0- Yi) Hm = DY. 
若 假 设 Z = Ey = D, 则 问题 可 以 简化 . 在 这 种 情况 下 , 贝 叶 斯 规则 为 


h*(a) = argmaxkok(z)， (22.13) 
其 中 ， 
(2) = a7 Dyn 一 SUP ET? + loge. (22.14) 
参数 的 估计 如 前 文 所 述 , 而 荆 的 MLE 估计 为 
s= noSo +m Si 
tm ` 
分 类 规则 为 
各 人 z) = { r aoe th， (22.15) 
其 中 ， 


i largi P$ 
6;(x) = 27S; 一 515 1f; + log i; 


称 作 判别 函 数 . 决策 界 {z : bo(z) = 5(z)} 是 线性 的 , 所 以 这 种 方法 被 称 作 线性 判 
别 分 析 (LDA). 

22.8 例 下面 回 到 南非 心脏 病 数 据 . 例 22.2 中 的 决策 界 是 由 线性 判别 得 到 的 . 
输出 结果 为 


分 为 0 类 分 为 1 类 
y=0 277 25 
y=1 116 44 


观测 到 的 错误 分 类 率 为 141/462 = 0.31. 如 果 包 含 所 有 的 协 变量 则 误差 率 降 至 0.27. 
由 二 次 判别 得 到 的 结果 为 
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分 为 0 类 分 为 1 类 
y=0 272 30 
y=1 113 47 


该 判别 具有 相同 的 误差 率 143/462 = 0.31. 如果 包 含 所 有 的 协 变量 则 误差 率 降 至 
0.26. 在 这 个 例子 中 , QDA HHE LDA 来 讲 几乎 没有 什么 优势 . 
现在 将 其 推广 到 Y 取 值 超过 两 个 的 情况 . 


22.9 定理 ”假设 YeEy= {1,…,K}. Æ fel) = f(z|Y =k) AESH, Nt 
斯 规则 为 


h(x) = argmaxkok(z)， 
其 中 ， 
6k(z) = -3 log |Zxe| 一 Be — px)? Eg (2 — uk) + log Tk- (22.16) 
若 正 态 分 布 的 方差 是 相等 的 , 则 


6x (a) = 27 Dp, m- zue + log Tk. (22.17) 


通过 代入 be, De, me 的 估计 来 估计 6k(z). 还 有 另外 一 个 属于 Fisher 的 线性 
判别 分 析 的 版 方法 本 . 其 思想 是 首先 将 数据 投影 到 一 条 直线 上 , 其 目的 是 将 协 变量 
的 维 数 降 至 一 维 . 从 代数 角度 讲 ， 这 意味 着 将 协 变量 X = (X1,… , Xa) 替换 为 一 
个 线性 组 合 U = wTX = = wjXi， 其 目标 是 选择 能 够 “最 佳 分 离 数据 ”的 向 量 
w= (Wi ,wa)- 然后 用 一 维 的 协 变量 U 而 不 是 X 来 对 数据 进行 分 类 . 

需要 给 出 一 个 组 问 分 离 的 定义 并 且 希 望 这 两 个 组 相对 于 它们 的 均值 相差 较 
远 . 令 py RREY =j 的 情况 下 X 的 均值 . 并 且 令 IRR X 的 方差 矩阵 ， 则 
E(U|Y = j) = E(w? X|Y = j) = w" py H V(U) = wT Ew. 定义 分 离 为 


=0)- =1)}2 
J(u) = EUY = 0 -EUY = 1) 


wT (uo — #1)(Ho — pi) Tw 
wTEw 


估计 了 如 下 : & nj = T =j) 为 第 j 组 的 观测 数量 , 令 Xj 为 第 j 组 的 样本 均 


O ft J 起源 于 物理 学 , 且 被 称 作 瑞 利 (Rayleigh) AR. 
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值 向 量 , 且 令 5; 为 第 7 组 的 样本 协 方差 矩阵 . 定义 


sis T. 
F(w) = ae (22.18) 
其 中 ， 
Sp = (Xo — X1)(Xo — Xi)", 
Sy = Co Do + (m = DS 
w= (ro — 1) + (m — 1) 
22.10 定理 向 量 
w= SẸ (Xo — Xi) (22.19) 
A T(w) 的 极 小 值 点 . 称 
U =w'X = (Xo — X1) Sy) X (22.20) 
为 Fisher 线性 判别 函数 . Xo 与 总: 之 问 的 中 点 为 
m= jao +X) = jo - X)" S5 (Zo +X). (22.21) 


Fisher 分 类 规则 为 
0，wTX > my 
hajs { 1, wTX <m. 
4% = 1/2 时 , Fisher 规则 与 方程 (22.14) 中 的 贝 叶 斯 线性 分 类 器 是 相同 的 . 
22.4 线性 回归 与 Logistic 回归 
一 个 更 加 直接 的 分 类 方法 是 估计 回归 函数 r(x) = E(Y|X = x) 而 不 需要 估计 和 密 
BE fe 在 本 节 的 余下 部 分 , 将 只 考虑 V= {0,1} 的 情况 . 因此 , r(x) = P(Y = 1|X = 
z) 并 且 只 要 有 一 个 估计 久 将 用 分 类 规则 


1 
io- 1, (2) > g (22.22) 


最 简单 的 回归 模型 是 线性 回归 模型 


a 
Y=r(z)+e = fot >) Bi Xi +6, (22.23) 
j=l 
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其 中 , E(e) = 0. 这 个 模型 不 可 能 是 正确 的 因为 它 没有 强制 规定 Y = 0 或 者 1. 然而 ， 
它 有 时 可 能 成 为 一 个 还 不 错 的 分 类 器 . 
回忆 B = (Bo,B1,… , Ba)? 的 最 小 二 乘 估计 , 它 是 极 小 化 残 差 平方 和 


n 


d 2 
RS8(8) = > (Y. - M- Z xaa) . 
j=l 


i=l 


令 表示 如 下 形式 的 N x (d+ 1) 矩阵 : 
do Kips Key 
eee 
1 Xa .Koa 


还 令 了 = (Yi, , Yn)T, W 
RSS(8) = (Y — XB)"(Y — XB), 
且 该 模型 可 以 记 作 
Y=XBte, 

其 中 ,e = (et …… pen). 由 定理 13.13, 

B= (XTX)-1XTY. 
预测 值 为 

¥ = XA 
现在 用 式 (22.22) 来 分 类 , 其 中 F(x) = By + Dye. 
另 一 种 方法 是 用 第 13 章 讨论 过 的 Logistic 回归 . 模型 为 
@Pot EPjzs 
r(z) = P(Y =1|X = z) = 一 一 二 (22.24) 
l+e 7 


并 且 MLE 可 以 由 数值 方法 得 到 . 

22.11 例 “” 回 到 心脏 病 数 据 . 其 MLE 在 例 13.17 中 给 出 . 用 该 模型 来 分 类 的 错 
误 率 为 0.27. 由 线性 回归 得 到 的 错误 率 为 0.26. 

可 以 通过 拟 合 一 个 更 加 复杂 的 模型 来 得 到 一 个 更 好 的 分 类 器 . 例如 , 可 以 拟 合 


logitP(Y = 1|X = z) = fo + Dz; + Biknizk- (22.25) 
了 了 了 
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更 一 般 地 , 可 以 对 于 某 个 整数 r, 在 模型 中 不 断 添加 项 数 直 到 最 高 阶 数 为 . 较 大 的 
r 值 给 出 一 个 较 复杂 的 模型, 它 应 该 对 数据 有 较 好 的 拟 合 . 但 是 存在 一 个 偏差 - 方 
差 平衡 问题, 这 将 在 后 文中 讨论 . , 

22.12 例 “ 若 对 于 心脏 病 数据 用 r= 2 的 模型 (22.25) 来 拟 合 , 错误 率 将 降 至 
0.22. 


22.5 Logistic 回归 与 LDA 之 间 的 关系 


LDA 与 Logistic 回归 几乎 是 相同 的 . 若 假设 每 个 组 是 正 态 的 且 具 有 相同 的 协 方 
差 矩 阵 , 则 已 知 
tos (BO a) = ioe( 2) = (wo + Hh) (m — Ho) 
+2787} (m — Ho) 
= aot a's. 
另 一 方面 , 由 假设 知道 Logistic 模型 为 
PY = 1|X =2) 
wos (Fy =0IX= 
它们 是 相同 的 模型 , 因为 两 者 都 是 关于 z 为 线性 的 分 类 规则 . 其 区 别 在 于 如 何 估计 
参数 . 
单个 观测 的 联合 密度 为 f(z,y) = f(zly)f(y) = f(ylz)f(z). 在 LDA 中 通过 极 
大 化 似 然 函 数 的 方法 来 估计 整个 的 联合 分 布 


Trev = [1 ret [1 20) (22.26) 
i i i 


) = bo +A. 


Gauss Bernoulli 
在 Logistic 回归 中 , 极 大 化 条 件 似 然 Ti f(yilzi) 但 是 却 忽视 了 第 二 项 F(a), 
Tlf. vi) = II F(viled TT] f(z). (22.27) 
logistic ignored 

RSPR BRM f(ylz), 其 实 没有 必要 去 估计 整个 的 联合 分 布 ，Logistic 回归 
不 指定 边际 分 布 f(z), 所 以 它 比 LDA 更 加 非 参 数 化 . 这 是 Logistic 回归 方法 相 比 
于 LDA 的 一 个 优势 . 

总 结 : LDA 与 Logistic 回归 都 是 一 个 线性 分 类 规则 . 在 LDA 中 ， 估计 整个 的 联 
合 分 布 Fay) = f(zly)f(y). 而 在 Logistic 回归 中 只 估计 flle) 而 且 并 不 需要 估计 
F(z). 


oo 
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22.6 ”密度 估计 与 朴素 贝 叶 斯 


贝 叶 斯 规则 为 h(z) = arg maxyme fale). 若 可 以 估计 mx 和 fe, 则 可 以 估计 贝 
叶 斯 分 类 规则 ， 估 计 mx 是 容易 的 , 但 是 估计 fe 呢 ? 先前 通过 假设 fi 是 高 斯 的 
而 估计 过 所， 另 一 种 方法 是 用 非 参数 密度 估计 fe 如 核 估计 来 估计 fe BRE 
T= (Z1,… ,za) 是 高 维 的 , 则 非 参 数 密度 估计 不 是 太 可 靠 . PAR X1,… ,Xa 是 独 
立 的 , 则 该 问题 的 情况 得 以 改善 , 因为 这 时 f(z1,… , za) = u Ji(zji) 这 将 问题 


简化 为 4 个 一 维 密度 估计 问题 . 相应 的 分 类 器 被 称 作 朴 素 贝 叶 斯 分 类 器 . X 的 分 量 
是 独立 的 假设 往往 是 错误 的 , 然而 由 此 得 到 的 分 类 器 可 能 依然 是 精确 的 . 这 里 给 出 
朴素 贝 叶 斯 分 类 器 的 步骤 概要 . 


朴素 贝 叶 斯 分 类 器 
1. 对 于 每 个 组 ,计算 对 于 X; 的 密度 fi; 的 一 个 估计 fay, 用 Yi = k 的 数据 . 
2. 令 
> > d > 
Sila) = fr(z1,… 2a) = II fue). 
j=l 
3.4 ; 
a= EPIN =4), 
i=1 
Bh, # Yi = k, I(Yi =k) =1 ABV 4k, I(Y; =k) =0. 
4,4 


h(x) = arg max, fe (z). 


当 z 是 高 维 且 离 散 时 , 朴素 贝 叶 斯 分 类 器 较 流行 . 在 那 种 情况 下 , Fig (ay) 尤其 
简单 . 


22.7 树 


树 的 分 类 方法 是 将 协 变量 空间 分 成 互 不 相交 的 部 分 , 然后 根据 观测 落 入 的 
分 割 单元 将 其 分 类 . 顾名思义 , 该 分 类 器 可 以 表示 为 一 个 树 . 

例如 , 假设 有 两 个 协 变量 , Xi = 年 龄 且 Xo = 血压 . 图 22.2 给 出 了 用 这 两 个 变 
量 做 出 的 一 个 分 类 树 . 

树 的 用 法 如 下 : 若 一 个 个 体 具有 年 龄 > 50, 则 将 其 分 类 为 Y = 1. 若 一 个 个 体 
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具有 年龄 < 50, 则 测量 其 血压 . 若 其 收缩 压 < 100, 则 将 其 分 类 为 Y = 0, 否则 将 其 
分 类 为 Y=1. 图 22.3 给 出 了 与 协 变量 空间 的 分 割 相同 的 分 类 器 . 


图 22.2 一 个 简单 分 类 树 


血压 
S 


50 
年 龄 


图 22.3 分 类 树 的 分 割 表示 


此 处 给 出 树 的 构建 方法 . 首先 , 假设 ye Y = {0,1} 并 且 只 有 一 个 协 变量 六. 选 
择 一 个 分 割 点 t, 使 得 该 点 将 实数 轴 分 成 两 个 集合 A = (—00,t] Ail A = (t,00). 令 
PO) 表示 观测 落 入 Ay E Yi = 了 的 比例 为 
IY = 5, Xe As) 
Pli) = 一 一 一 (22.28) 
p2 I(X; € As) 


其 中 , s=1,2 且 j= 0,1. 分 割 点 上 的 混杂 度 定义 为 
2 
TU = ov, (22.29) 


s=1 
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Hp, i 
7 =1- AG). (22.30) 
j=0 

该 混杂 度 的 测度 就 是 所 谓 的 基尼 指数 . 若 一 个 分 割 单元 A, 包含 所 有 的 0 或 1, 则 
Ys 三 0. 否则 , ys > 0. 选择 使 混杂 度 最 小 的 分 割 点 t( 其 他 混杂 度 指数 也 可 以 与 基尼 
指数 并 行使 用 ). 

当 有 很 多 协 变量 的 时 候 , 选择 能 够 使 得 混杂 度 最 低 的 协 变量 和 分 割 ， 该 过 程 持 
续 直 到 满足 某 个 准则 停止 . 例如 , 当 每 个 分 割 单元 具有 少 于 no 个 数据 点 时 , 就 可 以 
停止 , 其 中 no 为 某 个 固定 的 数 . 树 的 底部 节点 被 称 作 树叶 . 每 个 树叶 被 分 配 一 个 0 
或 者 1, 这 取决 于 在 该 分 割 单元 里 是 否 有 更 多 的 数据 点 为 了 = 0 BEY =1. 

该 方法 可 以 容易 地 推广 到 Y € {1,… , K} 的 情形 . 简单 地 定义 混杂 度 为 


k 
%=1- AG}, (22.31) 
j=l 
其 中 , AG) 为 在 Y = j 的 分 割 单元 中 观测 数 的 比例 . 


22.13 例 ”对 于 心脏 病 数据 的 一 个 分 类 树 得 到 一 个 0.21 的 错误 分 类 率 . 若 只 
用 烟草 与 年 龄 来 构造 一 个 树 , 则 错误 分 类 率 为 0.29. 图 22.4 给 出 了 该 树 的 图 像 


<31.5 2315 


图 22.4 用 两 个 协 变量 作出 的 心脏 病 数据 分 类 树 


关于 如 何 构造 树 的 叙述 是 不 完全 的 . 若 持续 分 割 直到 每 棵 树 的 树叶 上 只 有 少数 
个 案 时 , 有 可 能 对 数据 过 拟 合 . 应 该 选择 树 的 适当 复杂 程度 以 使 得 估计 出 的 真实 错 
误 率 比较 低 . 在 下 一 节 中 , 将 讨论 错误 率 的 估计 . 
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22.8 ”误差 率 评估 与 选择 好 的 分 类 器 


如 何 选择 一 个 好 的 分 类 器 ? 倾向 于 选择 一 个 具有 低 真 实 误差 率 Lh) 的 分 类 器 
A. 通常, 不 能 用 训练 误差 率 Za(h) 当 作 一 个 真实 误差 率 的 估计 , 因为 它 是 向 下 偏差 
的 . 

22.14 例 ”再 次 考虑 心脏 病 数 据 . 假设 拟 合 一 系列 Logistic 回归 模型 . 在 第 1 
个 模型 中 包含 1 个 协 变量 . 在 第 2 个 模型 中 包含 两 个 协 变量 , 如 此 下 去 . 第 9 个 模 
型 包含 所 有 的 协 变量 . 可 以 更 进一步 , 再 拟 合 第 10 个 模型 , 它 包含 所 有 的 9 个 协 变 
量 加 上 第 1 个 协 变量 的 平方 ,再 拟 合 第 11 个 模型 , 它 包含 所 有 的 9 个 协 变量 加 上 
第 1 个 协 变量 的 平方 和 第 2 个 协 变量 的 平方 . 如 此 下 去 , 将 会 得 到 一 系列 18 个 分 
类 器 并 且 其 复杂 度 在 递增 . 图 22.5 中 的 实 线 表 示 观 测 到 的 分 类 误差 , 当 令 模型 更 加 
复杂 时 , 它 稳定 下 降 . 若 继续 做 下 去 , 则 可 以 得 到 一 个 0 观测 分 类 误差 的 模型 . 虚线 
表示 10 重 交叉 验证 估计 的 误差 率 (后 文 将 马上 给 出 解释 ), 它 是 一 个 比 观测 分 类 误 
差 更 好 的 真实 误差 率 的 估计 . 该 估计 误差 先 递减 然后 又 递增 . 这 本 质 上 是 在 第 20 章 
中 见 过 的 偏差 - 方差 平衡 现象 


误差 率 


模型 的 项 数 
图 22.5“ 实 线 是 观测 误差 率 , 虚线 是 真实 误差 率 的 交叉 验证 估计 


有 很 多 估计 误差 率 的 途径 . 将 考虑 其 中 两 个 : 交叉 验证 和 概率 不 等 式 . 

交叉 验证 交叉 验证 的 基本 思想 , 在 曲线 估计 中 已 经 遇 到 过 , 就 是 排除 一 部 分 数 
据 来 拟 合 一 个 模型 . 最 简单 的 交叉 验证 将 数据 随机 分 割 成 两 个 部 分 : 训练 集 7 和 验 
证 集 V. 经 常 地 , 大约 10% 的 数据 被 取出 来 当 作 验证 集 . 分 类 器 h 是 从 训练 集中 构 
建 的 . 通过 下 式 来 估计 误差 : 


Zh) = 过 D IX) £7). (22.32) 
XiEV 
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其 中 , m 为 验证 集 的 大 小 , 见 图 22.6. 


图 22.6 


交叉 验证 的 另 一 个 方法 是 K 重 交叉 验证 , 它 可 以 由 下 面 的 算法 得 到 . 
五 重 交叉 验证 

1. 将 数据 随机 分 成 K 个 大 小 近似 相等 的 部 分 .通常 的 选择 为 K = 10. 
2. MF k= 1 到 K, HAT PAE: 

(a) 将 第 k 个 部 分 从 数据 中 删除 . 

(b) 由 余下 的 数据 计算 分 类 器 hay. 

(0) 用 hw) 来 预测 第 k 个 部 分 中 的 数据 . 令 Day 表示 观测 误差 率 . 
3. 令 


é 1 Le 
L(h) = 元 SY w. (22.33) 


22.15 例 将 10 重 交 叉 验证 应 用 到 心脏 病 数据 中 . 交叉 验证 误差 作为 树叶 数 
目的 函数 , 其 最 小 值 在 树叶 数 为 6 时 取 到 . 图 22.7 给 出 了 树叶 数 为 6 的 树 图 . 

概率 不 等 式 “ 另 一 个 估计 误差 率 的 方法 是 用 概率 不 等 式 找到 一 个 2,(h) 的 置 
信 区 间 . 该 方法 在 经 验 风险 极 小 化 中 很 有 用 处 . 

令 1t 表示 一 个 分 类 器 的 集合 , 例如 , 所 有 的 线性 分 类 器 . 经 验 风险 极 小 化 意味 
着 选择 分 类 器 及 eX 来 极 小 化 训练 误差 2,(h), 也 称 作 经 验 风险 . 因此 ， 


及 = arg minpenLn(h) = arg miner (2 ye I(h(Xi) 4 Y): (22.34) 
典型 地 , Za (h) 低估 了 真实 误差 率 LÓ), AA A ER EnG) 最 小 的 分 类 器 . 目标 是 
评估 产生 了 多 大 的 低估 . 分 析 该 问题 的 主要 工具 是 Hoeffding 不 等 式 ( 见 定理 4.5). 
回忆 车 Xi, ,Xn ~ Bernoulli(p), 则 对 于 任何 e > 0, 


P(|p — p| > €) < 2e-2ne ， (22.35) 
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Hp pant S Xi. 


E 
<315 三 31.5 
| 1 
年 龄 
I 全 一 全 | 
<50.5 250.5 
1 1 
F A 型 家 庭 史 
< 68.5 三 68.5 | | 
1 
烟草 
0 1 | 1 
< 7.605 2 7.605 


图 22.7 由 交叉 验证 选 出 的 较 小 的 分 类 树 


首先 , 假设 H = {hi,… ,hm} 包含 有 限 多 个 分 类 器 . 对 于 任意 固定 的 h, 由 大 
数 定律 , Ln,(h) 几乎 必然 收敛 到 L(h). 现在 将 建立 一 个 更 强 的 结果 . 
22.16 定理 (一 致 收敛 性 ) ”假设 人 是 有 限 的 且 具 有 mm 个 元 素 , 则 


(max |Zn(h) — L(h)| > 9 < 2me-2ne . 


,证 明 ”用 Hoefiding 不 等 式 , 并 且 用 到 事实 若 和,… ,Am 为 一 个 事件 集 则 
P( Ad) < 3 PCA). 现在 有 


(max |En(h) — L(h)| > 9 = r(U |En(h) — L(h)| > 9 
< >》 P(\Zn(h) — L(h)| > €) 


HEH 
2 2 
< 》 20° =2me 
HEH 
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则 nÂ) te X LÂ) 的 一 个 1 一 a 的 置信 区 间 . 
证 明 ”这 可 以 由 下 面 的 事实 得 到 : 


22.17 定理 4 


P(|En(h) ~ L(h)| > e) < P (pg nÂ) - L(h)| > 9 


2 
< 2me-2ne = a. 


当 H 较 大 时 , LÓ) 的 置信 区 间 也 较 大 . H 中 的 函数 越 多 , 更 有 可 能 出 现 “ 过 拟 
合 ”, 这 是 以 具有 一 个 较 大 的 置信 区 间作 为 补偿 的 . 

在 实际 中 , 通常 用 无 限 集合 H, 如 线性 分 类 器 集合 . 为 了 将 分 析 推 广 到 这 些 情 
形 , 想 要 说 如 下 的 结论 : 


P (sup lBn(h) -LO > 9 < 不 太 大 的 一 个 量 . 


推广 到 此 的 一 个 途径 是 通过 Vapnik-Chervonenkis 的 方法 或 VC 维 数 法 . 
令 4 为 一 个 集合 类 . 给 出 一 个 有 限 集 F = {z1,… tn}, e 


Na(F) = #{z 门 4 :Ae a} (22.36) 
为 由 A “挑选 " 出 的 F 的 子 集 数 . 这 里 #(B) 表示 一 个 集合 B 的 元 素 个 数 . 粉碎 系 
数 定义 为 
s(A,n)= max Na(F), (22.37) 
其 中 Fn 包含 所 有 的 大 小 为 n WARR. 现在 令 Xi, Xn ~P HD 


P,(4) =1 SIG eA) 
i=l 


表示 经 验 概率 测度 . 下 面 著名 的 定理 界定 了 了 与 Pa 之 间 的 距离 . 
22.18 定理 (Vapnik and Chervonenkis, 1971) ”对 于 任意 的 Pn 和 e>0， 


P{ sup |P,(A) — P(A)| > e} < 8s(A,n)e—"e /32. (22.38) 
AEA 


其 证 明 虽 然 很 优美 但 也 很 长 , 此 处 省 略 . 若 H 是 一 个 分 类 器 集 , 定义 4 为 具有 形式 
{z : h(x) = 1} 的 集合 类 . 定义 s(H,n) = s(A,n). 
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22.19 定理 
rf sup |În(h) — L(h)| > 4 < 8s(H,n)e—"e /32. 
hen 


L(h) 的 一 个 1 一 a 置信 区 间 为 nÂ) ten, HP, 2 = (32/n) log((8s(H,n))/a). 
这 些 定理 只 有 在 随 着 n 的 增长 粉碎 系数 却 增长 不 太 快 的 时 候 才 有 用 处 .下 面 
是 VC 维 数 概念 的 引入 . 


22.20 定义 ”一 个 集合 类 A 的 VC(Vapnik-Chervonenkis) 维 数 定义 如 下 : 对 于 
所 有 的 n, Æ s(A,n) = 2", A VC(A) = 00. SRI, 定义 VC(A) 为 s(A,n) = 2* 
中 最 大 的 k. 


因此 , VC 维 数 是 最 大 有 限 集合 F 的 大 小 , 该 集合 可 以 被 4 粉碎 意味 着 A 挑选 
HT F 的 每 个 子 集 . €H 为 一 个 分 类 器 集合 , 其 中 , h EH 中 变化 , EX VCH) = 
VC(A), 其 中 , A 为 形式 为 {z : h(z) = 1} 的 集合 类 . 下 面 的 定理 表明 若 4 具有 有 限 
VC 维 数 , 则 粉碎 系数 随 着 多 项 式 次 数 ”的 增长 而 增长 . 

22.21 定理 & 4 具有 有 限 VC Hi v, 则 


s( A,n) <n” +1. 


22.22 Hl & A= {(—00,a];a E R}. 4 粉碎 每 个 单 点 集 {z}, 但 是 它 没 粉碎 形 
RA {x,y} 的 集合 . 因此 , VC(A) = 

22.23 Bl FA HEB LAK, 则 A 粉碎 S = {x,y}, 但 是 它 不 能 粉碎 
具有 三 个 点 的 集合 . 考虑 S = {x,y,z}, 其 中 , z <y <z. 不 能 找到 一 个 区 间 A 使 得 
ANS = {z,z}. 所 以 , VC(A) = 2. 

22.24 Bl $ 4 为 平面 上 所 有 的 线性 半空 间 . 任意 的 3 点 集 (未 必 都 在 一 条 线 
上 ) 可 以 被 粉碎 . 4 点 集 不 能 被 粉碎 . 考虑 一 个 例子 , 4 个 点 构成 一 个 钻石 形状 . 令 
人 表示 左边 和 最 右边 的 点 . 这 不 能 被 挑选 出 来 . 其 他 的 配置 同样 可 以 看 到 是 不 能 被 
粉碎 的 . 所 以 VC(A) = 3. 一 般 , Rt 中 的 半空 间 具 有 VC 维 数 4 +1. 

22.25 Bl S 4 为 平面 上 所 有 的 矩形 , 其 边 平行 于 坐标 轴 . 任意 一 个 4 点 集 可 
以 被 粉碎 . 令 5 为 一 个 5 点 集 . 有 一 个 不 是 最 左边 , 也 不 是 最 右边 , 不 是 最 上 边 , 也 
人 RT RAS 中 除了 该 点 的 所 有 点 , 则 T 不 能 被 挑选 出 来 , 所 以 
VC(A) = 

22.26 em 令 工 具有 维 数 d BSH 为 线性 分 类 器 的 集合 . H 的 VC A 
d+1. 因此 , 真实 误差 率 的 一 个 1 一 a 置信 区 间 为 L) te, HH, 

32 8(na+l 41 
= Pog (2). 


a 
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22.9 支持 向 量 机 


本 节 考 虑 被 称 作 支 持 向 量 机 的 一 类 线性 分 类 器 . 假设 Y 是 二 元 变量 . 为 方便 起 
见 , 将 输出 标记 为 -1 和 +1 而 不 是 0 和 1 将 会 方便 些 . 那么 一 个 线性 分 类 器 可 以 


写作 
h(a) = sign (x®), 
其 中 ,z= (z1… ,za)， 
d 
H(z) = ao 十 Yaz; 
i=l 
和 


-1, z<0, 
sign(z) = ¢ 0, z=0, 
1, z>0. 
首先 , 假设 数据 是 线性 可 分 的 , 即 存在 一 个 超 平面 可 以 将 两 个 类 完全 地 分 离 . 
22.27 引 理 数据 可 以 被 某 个 起 平面 分 离 当 且 仅 当 存 在 一 个 超 平面 H(z) = 
ao + yo 使 得 
YıH(z;)>1, i=1,-+-,n. (22.39) 


证 明 ”假设 数据 可 以 被 一 个 超 平面 W(z) = bo + Bon 分 离 . 可 知 存在 某 常 
e c AEI Yi = 1 意味 着 W(Xi) > c, rH Y = -1 意味 着 W(Xi) < -c. 因此 , 对 于 
所 有 的 i, YW(Xi) > c. 令 H(z) = ao 十 È titi, 其 中 , aj = bj/c. 则 对 于 所 有 的 i， 
YH(Xi) > 1. 反方 向 推导 也 是 直接 的 . 

在 可 分 情形 , 将 会 有 很 多 分 离 超 平面 . 如 何 选择 一 个 呢 ? 直观 地 讲 , 选择 一 个 离 
数据 “最 远 ” 的 超 平面 看 起 来 是 合理 的 , 这 是 在 它 分 离 许多 +1 和 -1 这 两 类 点 并 
极 大 化 到 它 最 近 点 的 距离 的 意义 下 产生 的 . 该 超 平面 被 称 作 边际 极 大 值 超 平面 . 边 
际 就 是 超 平面 到 最 近 点 的 距离 . 边际 边界 上 的 点 被 称 作 支 持 向 量 , 见 图 22.8. 


22.28 定理 PMMA MAMIE BF Ac) =A + ae 是 在 约 来 
(22.39) 下 家 小 化 (1/2) X a2 得 到 . 
ja 


该 问题 可 以 看 作 一 个 二 次 规划 问题 . 令 (Xi, Xr) = XP Xe 表示 Xi 和 Xi 的 
内 积 . 
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H(x)=ay+aax=0 


图 22.8 在 所 有 能 够 分 离 这 两 类 点 的 超 平面 中 , A (2) 具有 最 大 边际 


22.29 定理 4 H(z) = % + Dae 表示 最 优 超 平 面 (最 大 边际 ) 则 对 于 
=1 
j= bd, 


a= Pat), 
i=l 
其 中 ,Xj(i) 为 协 变量 Xi AK i PMA, A A= (G1,… ,Gn) 是 极 大 化 下 式 
得 到 的 向 量 : 


a jaa 
Dai- 3 2 2o ain Vi¥a Xi, Xi), (22.40) 
i=1 i=1 k=l 

且 

ai<0 
和 
0= P aiYi. 


MT AA 0 的 点 Xi 称 作 支持 向 量 . Go 可 以 通过 求解 下 式 而 得 到 : 
ai(vixta+ fe) =0, 
对 于 任何 支持 点 Xi. TUBA 


A(z) = Go + Savile, Xi). 


i=1 
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有 很 多 软件 包 可 以 快速 求解 该 问题 . 若 没 有 完美 的 线性 分 类 器 , 则 可 以 通过 将 
(22.39) 换 成 下 面 的 条 件 而 允许 组 之 间 的 重叠: 


YiH(z:)>1- é, & 20, i=1,---,n. (22.41) 


变量 6,… ,人 被 称 作 松弛 变量 . 
现在 极 大 化 (22.40) 使 得 


Dav =0, 
a 
常数 是 一 个 调节 参数 , TAR EEEE. 
22.10 核 方 法 
有 种 所 谓 核 方法 的 技巧 , 它 可 以 改善 一 个 计算 简单 的 分 类 器 h. 其 想法 是 将 在 


内 取 值 的 协 变 其 X 映射 到 一 个 较 高 维 的 空间 Z 中 , 并 且 将 分 类 器 应 用 到 较 大 的 
空间 Z 中 . 这 可 以 得 到 一 个 更 加 灵活 适用 的 分 类 器 且 保 留 了 计算 简易 性 . 


图 22.9 BAR 
将 协 变量 映射 到 一 个 较 高 维 的 空间 可 以 使 得 一 个 复杂 的 决策 界 成 为 一 个 较 简单 的 决策 界 


该 思想 的 一 个 标准 的 例子 可 参见 图 22.9. 协 变量 为 z = (21,22). Yi 可 以 被 一 
个 椭圆 分 离 成 两 个 组 . 定义 一 个 映射 $ 为 


2210 核 方 法 293 


z = (21,22,23) = gz) = (z1, V2z172, 23). 


因此 , oF X = R? 映射 到 Z = R3. 在 高 维 空间 Z 中 , Yi 是 可 以 被 一 个 线性 决策 界 
分 开 的 . 换 句 话说 ， 

较 高 维 空间 的 一 个 线性 分 类 器 对 应 于 原 空间 的 一 个 非 线 性 分 类 器 . 

这 个 方法 的 要 点 是 为 了 得 到 一 个 更 丰富 的 分 类 器 集合 , 无 需 放 弃 线性 分 类 器 的 便捷 
性 . 简单 地 将 协 变量 映射 到 一 个 更 高 维 的 空间 . 这 好 比 通过 多 项 式 使 得 线性 回归 更 
加 灵活 . 

此 方法 潜在 的 缺点 也 是 存在 的 . 若 显著 地 扩张 数据 的 维 数 , 可 能 会 增加 计算 的 
负担 . 例如 , 若 z 具有 维 数 d = 256 并 且 想 要 用 所 有 的 四 阶 项 , 则 2 = d(x) 具有 维 
数 183,181, 376. 可 以 通过 以 下 两 个 事实 而 幸免 于 该 计算 的 对 梦 . 首先 , 许多 分 类 器 
不 要 求知 道 每 个 点 的 值 , 而 只 要 知道 点 对 之 间 的 内 积 . 其 次 , 注意 在 例子 中 Z 中 的 
内 积 可 以 写作 


(2,2) = (9(7), 9(2)) 
= 235? + 271F17272 + 1353 
= ((a,@))? = K(a,2). 


因此 , 可 以 计算 (z, 2) 而 不 用 计算 Zi = (Xi). 

综 上 所 述 , 核 方法 涉及 找到 一 个 映射 5 :一 Z 和 一 个 分 类 器 使 得 

1. Z 具有 比 X 更 高 的 维 数 上 且 因 此 产生 一 个 更 加 丰富 的 分 类 器 集 . 

2. 分 类 器 只 要 求 计算 内 积 . 

3. 存在 一 个 函数 K, 称 之 为 核 , 使 得 (4(z), O(@)) = K(a, 2). 

4. 算法 中 出 现 (1,3) 项 的 地 方 , 将 其 换 成 K (a, 2). 

事实 上 , 并 不 需要 构造 映射 p. 只 需要 对 于 某 个 4 去 指定 一 个 对 应 于 (ola), o) 
WK K(z,z). 这 又 导致 一 个 有 意思 的 问题 : 给 定 一 个 含 两 个 变量 的 函数 K(x,y), 
是 否 存在 一 个 函数 9(z) 使 得 K (x,y) = ($z), O(y))? Mercer 定理 给 出 了 答案 , 粗 
略 地 讲 , 若 K 是 正定 的 , 即 


J [Kentta >0, 
对 于 平方 可 积 函数 f 而 言 ,这样 的 4 存在 . 常用 的 核 的 例子 有 


EHR K(2,2) = (a) +a), 
sigmoid K(z,%) = tanh(a(x,Z) + b), 
高 所 Ke3) = exp(- 12-2 /@2)). 
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下 面 来 看 看 如 何 将 这 一 技巧 应 用 到 LDA 和 支持 向 量 机 中 的 . 

回忆 Fisher 线性 判别 方法 , 它 将 X 换 成 U = wTX, 其 中 , w 极 大 化 瑞 利 系数 ， 
wTSgw 

wTSww’ 


Sp = (Xo — Xi)(Xo — Xi)", 


J(w) = 


A 

(no— 1)So + (m=) 
(mo — 1) + (m1 = 1) (no-l)+(n — 1)" 
在 核 方法 的 版 本 里 , 将 X BUR Z = 4(Xi), 并 且 寻 找 w 来 极 大 化 


Su = 


wT Saw 


J(w) = f 
(w) wl Sww 


(22.42) 


其 中 ， 
5p = (Ž - Ž1)(Ž - 21)", 

H j r 

(no — 1)S0 + (m — 1)51 
(mo = 1) + (m1 = 1) © (n9 = 1) + (1 = 1)" 
这 里 , 5; 是 对 应 于 Y = j 的 样本 Z 的 协 方差 . 然而 ， 为 了 用 到 核 方法 的 优点 , 需要 
用 内 积 来 重新 表述 并 且 将 内 积 换 成 核 . 

可 以 证 明 极 大 化 向 基 w 是 Z 的 一 个 线性 组 合 . 因此 可 以 写 


n 
w= Joiz 
i=1 


Sw = 


Z =L YAXDI: = 5). 
ny gl 
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其 中 , Mj 是 一 个 向 量 且 其 第 i 个 分 量 为 
M= wR KM =3). 

可 得 

wTŠgw =a™ Ma, 
其 中 , M = (Mo - Mi)(Mo - Mi)". 通过 相似 的 计算 , 可 以 得 到 

wTSww = aTNa, 
A 1 1 

N = ko(1- 21) Kg +Ki(1- ža), 


了 是 单位 阵 , 1 是 元 素 为 全 为 1 的 矩阵 , Kj 是 一 个 n x nj 的 矩阵 , 其 元 素 (Ki)rs = 
K(zr,zs), 其 中 , zs 在 第 7 组 内 的 观测 值 上 变化 . 因此 , 现在 寻找 a 来 极 大 化 


所 有 的 基 都 用 核 来 表达 . 正式 地 , 其 解 为 a = N(M — Mi). 然而 , N 可 能 是 不 可 
逆 的 . 在 这 种 情况 下 , 对 于 某 个 常数 b, 可 将 N 换 成 N +b. 最 后 , 到 新 子 空间 上 的 
投影 可 以 写 为 
U =w (x) = aK (zi, 7). 
i=1 


支持 向 基 机 可 以 相似 地 被 核 化 . 简单 地 将 (Xi, Xj) 换 成 K (Xi, X3). 例如 , 不 去 
极 大 化 (22.40), 现在 极 大 化 


La- 5 SOY aian Vive K (Xi, X3). (22.43) 


超 平面 可 以 写作 ÎE) = G0 + Y GiYiK(X, X). 


i=l 


22.11 其 他 分 类 器 
还 有 许多 其 他 的 分 类 器 , 限于 篇 幅 不 对 它们 作 全 面 的 讨论 . 这 里 仅 简要 地 提 及 


版 


大 最 近邻 分 类 器 是 非常 简单 的 . 给 定 一 个 点 z, 找到 个 离 z 最 近 的 数据 点 . 通 
过 这 些 大 个 邻近 的 大 多 数 投票 原则 将 z 分 类 . 配合 可 以 被 随机 拆散 . 参数 可 以 通 
过 交叉 验证 的 方法 选取 . 
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装 找 法 是 一 种 用 来 降低 一 个 分 类 器 不 稳定 性 的 方法 . 它 对 于 高 度 非 线性 分 类 器 
如 树 尤为 有 用 . 从 数据 中 抽取 B 组 样本 . 第 组 样本 得 到 一 个 分 类 器 ho. 最 后 的 分 


类 器 为 
1 Šaha! 
i= > BAPO 
0， ”其 他 . 


提升 法 是 一 种 先 从 一 个 简单 的 分 类 器 开始 , 然后 通过 对 分 类 错误 样本 赋予 更 高 
的 权重 的 办 法 来 反复 拟 合 数据 , 继而 逐步 改善 该 分 类 器 的 方法 . 假设 H 为 一 个 分 类 
器 集合 , 例如 , 只 有 一 个 分 割 的 树 . 假设 六 © {1,1} 且 每 个 都 满足 h(z) © {一 1,1}. 
在 该 方法 中 , 如 同 已 经 讨论 的 那样 , 通常 对 于 所 有 的 数据 点 赋予 相等 的 权重 . 但 是 可 
以 在 大 多 数 算法 中 考虑 不 相等 的 权重 . 例如 , 在 构造 一 棵 树 的 过 程 中 , 可 以 将 混杂 度 
测度 换 成 一 个 加 权 的 混杂 度 测度 . 提升 法 的 原始 版 本 被 称 作 AdaBoost, 如 下 所 述 : 
1. REME wi = 1/n，i=1,…,n. 
2. 对 于 了 = 1 ,J 执行 以 下 步骤 ， 
(a) 用 权重 wi, ,wn 从 数据 中 构造 一 个 分 类 器 hj. 
(b) 计算 加 权 误差 估计 ， 


COG) 
Lj=E —____.. 


j 元 


Du 
i=l 
(c) & aj = log((1 — Ĉ;)/Î;). 
(0) 更 新 权重 : 
wi +— wie®s (VFA; (XM) 
3. 最 后 的 分 类 器 为 


J 
h(x) = sign (> ashla). 
j=1 


现在 有 很 多 文献 尽力 在 解释 和 改善 提升 法 . 装 袋 法 是 一 种 方差 降低 技术 , 提升 
法 可 以 视 为 一 种 偏差 降低 技术 . 从 一 个 简单 高 度 偏差 的 分 类 器 开始 , 然后 逐步 降低 
偏差 . 提升 法 的 缺点 是 其 最 后 的 分 类 器 非常 复杂 . 

神经 网 络 是 如 下 形式 的 回归 模型 ": 


P 
Y = o +) bic(ao+aTX)， 
j=1 


@ 这 是 一 个 神经 网 络 最 简单 的 版 本 . 还 有 更 加 复杂 的 版 本 . 
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其 中 o 是 一 个 光滑 函数 , 经 常 取 为 0(v) = e?/(1 +e). 这 其 实 只 不 过 是 一 个 非 线 
性 回归 模型 . 神经 网 络 曾经 一 段 时 间 非 常 流行 ， 但 是 它 给 计算 带 来 很 大 困难 . 特别 
的 是 , 在 寻找 参数 的 最 小 二 乘 估计 时 经 常会 遇 到 多 重 极 小 值 问题 . 而 且 , 项 数 ?本 
质 上 是 一 个 光滑 参数 , 要 选择 一 个 较 好 的 p 使 得 偏差 和 方差 之 间 存在 一 个 较 好 的 
平衡. 


22.12 文献 注释 


关于 分 类 的 文献 非常 多 而 且 增加 迅速 . 一 个 优秀 的 参考 文献 是 (Hastie et al.， 
2001). 想 了 解 更 多 关于 该 理论 的 内 容 , 可 见 文献 (Devroye et al., 1996; Vapnik, 1998). 
最 近 关 于 核 的 两 本 书 是 (Scholkopf and Smola, 2002; Herbrich, 2002). 


22.13 J 题 


1. 证 明定 理 22.5. 
2. 证 明定 理 22.7. 
3. 从 下 面 的 网 址 下 载 垃圾 邮件 数据 ， 
http://www-stat.stanford.edu / tibs/ElemStatlearn/' index.html 
该 数据 还 可 以 从 课程 网 页 上 找到 . 该 数据 含有 与 邮件 信息 有 关 的 57 MUER. 
每 个 邮件 信息 分 为 垃圾 邮件 (Y = 1) 或 者 非 垃圾 邮件 (Y = 0). 输出 变量 Y 在 
该 文件 的 最 后 一 列 . 目标 是 预测 一 个 邮件 是 否 为 垃圾 邮件 . 
(a) 分 别 用 (i)LDA, (ii)QDA, (iii)Logistic 回归 和 (iv) 一 个 分 类 树 来 构造 分 类 
规则 ， 对 于 每 种 方法 ， 报告 观测 错误 分 类 误差 率 和 构造 一 个 形 如 下 表 的 
2 x 2 的 表格 : 


二 
h(x) =0 h(z) =0 
Y=0 ?7 ?7 


了 3? ?7 


Y=1 


(b) 用 5 重 交叉 验证 来 估计 LDA 和 Logistic 回归 的 预测 精度 . 

(c) 有 时 减少 协 变量 的 个 数 会 有 好 处 一 种 方法 是 对 于 垃圾 邮件 和 邮件 组 来 比 
较 Xi. 对 于 57 个 协 变量 中 的 每 一 个 ， 检验 两 组 间 的 协 变量 的 均值 是 否 相 
等 . 保留 10 个 具有 最 小 p 值 的 协 变量 . 尝试 只 对 这 10 个 协 变量 用 LDA 和 
Logistic 回归 分 析 . 


4 令 A 为 二 维 球面 集 . 即 , Ac AB A= f(y): (e-a)? + (YO SOL ME 
He a,b,c. RAW VC HER. 


mm 
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5. 


6. 


7 


eee 
ene 


- 用 支持 向 基 机 将 垃圾 邮件 数据 分 类 ， 支持 向 量 机 的 免费 软件 在 网 址 
http://svmlight.joachims.org/ 

TEREE (从 本 书 网 站 可 下 载 ), 用 VC 理论 得 到 LDA 分 类 器 真实 误差 
率 的 一 个 置信 区 间 . 

假设 Xi ER ERE |Xi| <1, W Y; =1, TRÆ [Xi] > 1, W Y; =0. 证 明 没有 
线性 分 类 器 可 以 完美 地 将 这 些 数据 分 类 . 证 明 核 化 数据 Zi = (Xi, X2) 可 以 被 
线性 分 离 . 

. 用 核 K(z,z) = (1+ 27%)? 重 做 第 5 题 . 通过 交叉 验证 来 选择 p. 

. 对 “ 萝 尾 花 数 据 ”应 用 上 最 近邻 分 类 器 . 用 交叉 验证 来 选择 

.( 维 数 灾难 ) 假设 六 在 d 维 方 体 [-1/2,1/2]* 上 具有 均匀 分 布 . 令 及 表示 原点 
到 最 近邻 的 距离 . 证 明 RR 的 中 位 数 为 

(£ a. ep 
va(1) : 
其 中 ， aan 
va(r) = “aA +1) 

为 半径 为 r 的 球面 的 体积 . 当 n = 100, n = 1000, n = 10000 时 , HER d 为 多 少 
时 使 得 RR 的 中 位 数 超出 立方 体 的 边 (Hastie et al., 2001, 22~27). 

“ 对 第 3 题 中 的 数据 拟 合 一 个 树 模 型 . 应 用 装 袋 法 并 报告 结果 . 

. 对 第 3 题 只 用 关于 一 个 变量 的 一 个 分 割 来 拟 合 一 个 树 模型 . 应 用 提升 法 . 

- 令 r(lz) = PY = 1X = z) HA F(x) 为 r(z) 的 一 个 估计 . 考虑 分 类 器 


_J 1 a) >}, 
n-d 0， 其 他 . 


假设 Fx) ~ N(F(x),07(2)), 对 于 某 函 数 r(x) 和 o?(z). 证 明 , 对 于 固定 的 x 
P(Y # A(z) ~ P(Y # h*(z)) 


x f x (smCO = (1/2)) (F(a) - any) 


出 cfz) 


2r(z) 一 1 


， 


其 中 , 5$ 为 标准 正 态 cDF 且 h 为 贝 叶 斯 规则 ， 把 sign(r(z) — (1/2)) (F(x) — 
(1/2) 看 作 偏 差 项 的 一 种 类 型 . 解释 偏差 - 方差 平衡 在 分 类 中 的 含义 (Fried- 
man, 1997). 

提示 : 首先 证 明 


P(Y # h(a) = [2r(x) — 1|P(h(x) # h* (2)) + PY # h*(2)). 


BBWS BHR: 随机 过 程 


23.1 引 言 


本 书 的 大 部 分 篇 幅 关 注 于 IID 随机 变量 序列 . 现在 来 考虑 相依 随机 变量 序列 . 
例如 , 日 气温 将 形成 以 时 间 为 序 的 随机 变量 序列 , 而 且 一 天 的 气温 明显 地 与 前 一 天 
的 气温 不 是 独立 的 . 

一 个 随机 过 程 {X. : t ET) 是 一 个 随机 变量 集合 . 时 常 写成 X(t) 而 不 是 Xe 
变量 Xe 在 一 个 被 称 作 状 态 空间 的 集合 X 里 取 值 . 集合 T 被 称 作 指标 集 , 而 且 出 于 
目的 可 以 视 为 时 间 . 指标 集 可 以 为 离散 的 了 = {0,1,2…} 或 者 连续 的 T = [0, 00), 
这 取决 于 应 用 需要 . 

23.1 Ø (IID 观 测 ) ”一 个 ID 随机 变量 序列 可 以 写作 {Xt : te TH, 其 中 
T = {1,2,3,…}. 因此 , 一 个 ID 随机 变 其 序列 就 是 一 个 随机 过 程 . 

23.2 例 (RA) X= { 晴 ,多 云 }. 一 个 典型 的 序列 (依赖 于 你 住 哪里 ) 为 


WE, 晴 , 多 云 , 晴 ,多云 , 多云,……… 


该 过 程 具有 一 个 离散 的 状态 空间 和 一 个 离散 的 指标 集 . 

23.3 例 (股票 价格 ) ”图 23.1 给 出 一 个 虚拟 股票 关于 时 间 的 价格 变化 图 . 价格 
是 连续 监测 的 所 以 指标 集 T 是 连续 的 . 价格 是 离散 的 , 但 是 出 于 实际 目的 , 可 以 将 
FEY PEE SEE HO Ah 


时 间 


23.1 10 周 内 的 股票 价格 


23.4 Bl (经 验 分 布 函数 ) 4 X1,… ,Xn ~ 下, 其 中 ,下 为 [0,1] 上 的 某 个 CDF. 
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Fj) =- iDa <t) 
为 经 验 CDF. 对 于 任意 固定 值 t, Falt) 是 一 个 随机 变量 . 但 是 整个 经 验 CDF 
{ro :te (0, 中 


为 一 个 具有 连续 状态 空间 和 连续 指标 集 的 随机 过 程 . 
通过 回忆 一 个 基本 的 事实 来 结束 本 节 . 若 X1,… , Xn 是 随机 变量 , 则 可 以 将 联 
合 密度 写 为 


f(z En) = f(e1)f(waler) + f(@nltr, ,zn-1) 
= [f(zil 过 去 ;)， (23.1) 
i=l 


其 中 , WH, = (Xi, ,Xi_1). 


23.2 马尔 可 夫 链 


一 个 马尔 可 夫 链 就 是 X 的 分 布 只 依赖 于 X 的 随机 过 程 . 本 节 假 设 状态 空 
间 是 离散 的 , BRAY X = {1,… , N} 或 者 为 = {1,2,…}, 且 其 指标 集 为 了 = 
{0,1,2,…}. 典型 地 , 在 讨论 马尔 可 夫 链 时 , 大 多 数 作者 写作 Xn 而 不 是 Xan 本 书 同 
样 如 此 . 


23.5 定 义 # 


P(Xn = z|Xo,.… , Xn-1) = P(Xn = 2|Xn-1) (23.2) 


对 于 所 有 的 n 和 对 于 所 有 的 ZE 成 立 , 则 称 过 程 [Xn :m ET} 是 一 个 马尔 可 
Re. 


对 于 一 个 马尔 可 夫 链 , 方程 (23.1) 简化 为 


F(a1,+++ En) = f(21)f (22121) - +- f(EnlEn-1). 
一 个 马尔 可 夫 链 可 以 用 下 面 的 DAG 来 表示 : 
Xo— X1 — Xp ---—>Xnr—--- 


每 个 变量 具有 单个 母 节点 , 即 前 一 个 观测 . 
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马尔 可 夫 链 理论 是 非常 丰富 和 复杂 的 . 在 能 做 任何 有 意思 的 事情 之 前 , 必须 先 
弄 明 白 许 多 定义 . 目标 是 回答 下 面 的 问题 : 

1. 一 个 马尔 可 夫 链 何 时 “安定 ”为 某 种 平稳 态 ? 

2. 如 何 估计 一 个 马尔 可 夫 链 的 参数 ? 

3. 如 何 构造 一 个 收敛 到 既定 平稳 分 布 的 马尔 可 夫 链 和 为 什么 想 要 那样 做 ? 

在 本 章 中 将 回答 问题 1 和 问题 2. 将 在 下 一 章 回答 问题 3. 为 了 理解 问题 1, 可 
看 图 23.2 中 的 两 个 链 . 第 一 个 链 随处 振荡 且 将 永远 持续 下 去 . 第 二 个 链 最 终 将 处 于 
一 个 平稳 态 . 若 构造 了 第 一 个 过 程 的 一 个 直方 图 , 当 得 到 越 来 越 多 的 观测 时 , 它 将 
继续 变化 下 去 . 但 是 第 二 个 链 的 直方 图 最 终 将 收敛 到 某 个 固定 的 分 布 . 


时 间 ` 时 间 


图 23.2 ”两 个 马尔 可 夫 链 
第 一 个 没有 最 终 处 于 一 个 平稳 态 , 第 二 个 则 最 终 处 于 平稳 态 


转移 概率 . 一 个 马尔 可 夫 链 的 重要 的 量 为 从 一 个 状态 到 另 一 个 状态 的 概率 . 一 
个 马尔 可 夫 链 是 时 齐 的 若 P(Xn+1 = j|X = i) 不 随 着 时 间 而 变化 . 因此 , 对 于 一 个 
时 齐 马尔 可 夫 链 , P(Xn41 = jlXn = 让 = 了 (Xi = j|Xo = i). 

只 讨论 时 齐 马 尔 可 夫 链 . 


23.6 定义 称 


Pij =P(Xnt1 = j|Xn = i) (23.3) 
为 转移 概率 . 第 (ij) 个 元 素 为 pij HIE P 称 作 转移 矩阵 . 
注意 到 已 具 有 两 个 性 质 (py > 0 H (Epy = 1. 每 行 可 以 看 作 一 个 概率 密 


度 函 数 . 

23.7 例 ( 带 吸收 壁 的 随机 游 动 ) 令 X = {1,… ,NN}. 假设 你 正 站 在 这 些 点 中 
的 一 个 点 上 . 以 P( 正 面 朝 上 ) = p H P( 反 面 朝 上 ) = q= 1- p 的 概率 投掷 一 枚 硬币 . 
若是 正面 朝 上 , 向 右 走 一 步 . 若是 反面 朝 上 , 向 左 走 一 步 . 若 你 碰 上 某 个 终点 , 停止 . 
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转移 矩阵 为 
1000 - 00 
q 0 p -00 
0 0 -00 
PENEDA SEK 
0000.. 0p 
0000.. 01 


23.8 例 ”假设 状态 空间 为 不 = { 晴 ,多 云 }. 则 X, Xo,… 表示 一 系列 日 子 的 
RA. 今天 的 天 气 很 名 显 依赖 于 昨天 的 天 气 . 它 还 可 能 依赖 于 两 天 前 的 天 气 , 但 是 
作为 第 一 个 近似 , 可 以 假设 依赖 性 只 倒退 一 天 . 在 这 种 情况 下 , 天 气 为 一 个 马尔 可 
夫 链 且 一 个 典型 的 转移 矩阵 为 


M ZZ 
晴 0.4 0.6 
多 去 0.8 0.2 三 
例如 , 若 今天 是 晴天 , 则 明天 有 60% 的 可 能 性 是 多 云 . 


令 
Pij(n) = P(Xm+n = j|Xm = i) (23.4) 
HE n 步 中 从 状态 i 转移 到 状态 j 的 概率 . 令 Pr 表示 第 (i, 7) 个 元 素 为 piln) 的 
TOR. 这 些 被 称 作 n 步 转移 概率 . 
23.9 定理 (Chapman-Kolmogorov 方 程 ) n 步 概率 满足 


Pi(m+n) = > pin(m)pr;(n). (23.5) 
k 


证 明 ”在 通常 情况 下 ， 
P(X =2,Y = y) = P(X =2)P(Y =y|X =2). 
在 更 一 般 的 情形 下 , 该 事实 也 是 正确 的 ， 
P(X =2,Y =y|Z = z) = P(X =2|Z =2)P(Y =y|X = z, Z = 2). 


回忆 全 概率 公式 ， 
P(X =2) =) P(X =2,Y =y). 
y 
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由 这 些 事实 和 马尔 可 夫 性 , 有 


Pi(m+n) = P(Xmin = jlXo=i) 
= J P(Xmin = j, Xm = l|Xo = å) 
k 


= JO P(Xmin = j|Xm = k, Xo = i)P(Xm = k|Xo = i) 
k 

= JO P(Xmin = j|Xm = k)P(Xm = k|Xo = i) 
k 


= Ð pix(m)pa;(n). 
E 


仔细 观察 方程 (23.5). 这 只 不 过 是 矩阵 乘法 公式 . 因此 证 明了 
Prin = PmPn- (23.6) 


HEX, Pi = 已 由 上 述 定理 , Po = Piy = Pi Py = PP = P?. 按 该 方法 继续 下 
去 , 可 以 看 到 
P, = P"=Px Px---xP. (23.7) 


令 jn = (Un() ,An(N)) 为 行 向 量 , 其 中 ， 
Un(i) = P(Xn = i) (23.8) 


为 该 链 在 时 刻 n 时 处 于 状态 i 的 边际 概率 . 特别 地 , no 被 称 作 初始 分 布 . 为 了 模拟 
一 个 马尔 可 夫 链 , 所 要 知道 的 就 是 lo 和 P. 模拟 步 又 应 如 下 : 

第 一 步 ”产生 Xo ~ mo. 因此 , P(Xo) = i = po(i). 

第 二 步 。 用 i 表示 第 一 步 的 输出 . 产生 X ~ P. 换 句 话说 , P(X = j|Xo =i) = 
Di 

第 三 步 假设 第 二 步 的 输出 为 j. 产生 X2 ~ P， 换 句 话 说 , P(X2 = kX = 
J) = Pjk- 

继续 下 去 . 
理解 ln 的 含义 可 能 比较 困难 . 想象 模拟 该 链 许多 次 . 将 所 有 的 链 在 时 刻 n 的 
输出 收集 起 来 . 该 直方 图 会 近似 于 on. 23.9 定理 的 一 个 自然 结果 如 下 : 

23.10 引 理 ”边际 概率 可 由 下 式 给 出 : 


Un = joP™. 
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证 明 
Hn(j) = P(Xn = j) 
= 》 P(X, = j|Xo = i) P(Xo = i) 


= Do voli)pis(n) = mP". 


术语 概要 
1. 转移 概率 : Plij) = P(Xn+1 = j|Xn = i) = py. 
2. n PHR: Pn(i,j) =P(Xn4m = j|Xm = i). 
3. Pr =P". 
4 边际 : jn(i) = P(Xn = i). 


5. Un = oP”. 


状态 分 类 一 个 马尔 可 夫 链 的 状态 可 以 根据 各 种 性 质 来 分 类 . 
23.11 EM IBAIA j 从 i 是 可 达 的 ) SAT RA n A pij(n) > 0, 且 记 作 
i>j.#i>jHj>i, Niet i=j, Ltk it jE. _ | 
23.12 定理 ”互通 关系 满足 下 面 的 性 质 : 


Lisi. 


#ioj Misi. 
HicjHjok, HH iok. 
状态 集 X TAG Ha RH HX = MUU AP, 两 个 状态 之 
间 互 通 当 且 仅 当 它们 在 同一 个 类 中 . 

若 所 有 的 状态 之 间 是 互通 的 , 则 该 链 被 称 作 不 可 约 的 . 一 个 状态 集 是 闭 的 , 若 一 
旦 进入 该 状态 集 则 永 不 出 来 . 只 含有 单个 状态 的 闭 集 被 称 作 一 个 吸收 态 . 

23.13 例 4 X= {1,2,3,4} H 


Pen 


Y 

Il 
o eH eolo bl 
O AIR wim ly 
os o 
am o 
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类 为 {1,2}, {3} 和 {4}. 状态 4 为 一 个 吸收 态 . 
假设 从 状态 i 开始 一 个 链 . 该 链 会 返回 状态 i 吗 ? 若 如 此 , 称 状态 i 为 持久 的 或 
常 返 的 . 


23.14 定义 ”状态 i 为 常 返 的 或 持久 的 若 


P(X, =i} An > 1|Xo=i)j=1. 
否则 , 状态 i ABH. 


23.15 定理 一 个 状态 i 为 常 返 的 当 且 仅 当 
Dpiiln) = oo. (23.9) 


PKA AR BRS 
> piln) < o. (23.10) 


证 明 定义 


该 链 在 状态 i 的 次 数 为 Y = È In 在 给 定 该 链 从 状态 i 开始 的 条 件 下 , Y 的 期 户 
为 o0 
E(Y|Xo =i) -EK (hio =)= SOP =ilXo = i) =)? p(n) 


n=0 n=0 

定义 a; = P(Xn = i 对 于 某 个 n > 1|Xo = i). 若 i 为 常 返 的 , ai = 1. 因此 , 该 链 将 最 
终 返 回 i. 一 旦 该 链 返回 到 状态 i, 就 可 以 由 ai = 1 而 再 次 论断 该 链 还 将 返回 状态 i 
重复 该 论断 , 于 是 得 到 结论 E(Y|Xo = i) = oo. Hi WHAM, WM a < 1. 当 该 链 在 
状态 i, 则 有 一 个 1 一 a; > 0 的 概率 , 它 将 不 再 返回 状态 i 因此 , 该 链 处 于 状态 i 有 
n 次 的 概率 恰 为 a?-1(1 — ai). 这 是 一 个 具有 有 限 均值 的 几何 分 布 . 

23.16 定理 ”关于 常 返 性 的 事实 . 

1. 著 状 态 i 为 常 返 的 且 ij, 则 了 是 常 返 的 . 

2. FRA LARLY AIG j, RG ARLE. 

3. 一 个 有 限 马 尔 可 夫 链 必然 至 少 有 一 个 常 返 态 . 

4. 一 个 有 限 的 不 可 约 马尔 可 夫 链 的 状态 都 是 常 返 的 . 

23.17 定理 (分 解 定理 ) 状态 空间 LK 可 以 写成 不 相交 集 的 并 


+= 


306 第 23 章 重 温 概率 ; 随机 过 程 


其 中 Xp ABULELE Xi 为 一 个 闭 的 , 不 可 约 的 常 返 态 集 . 

23.18 Ø (随机 游 动 ) X= {---,—2,-1,0,1,2,---} BAR pii = P, Pisa 
= q=1—p. 所 有 的 状态 互通 , 因此 所 有 的 状态 为 常 返 的 或 者 全 部 为 瞬 过 的 . 为 了 弄 
清楚 , 假设 从 Xo = 0 开始 . 注意 到 


poo(2n) = ( 2n ) ran (23.11) 
n 
因为 回 到 0 状态 的 唯一 途径 就 是 同时 具有 n 项 正面 朝 上 的 结果 和 n 项 反面 的 结果 . 
可 以 用 Stirling 公式 来 近似 该 表达 式 , 即 
n! ~ n” yne” Vr. 


将 该 近似 代入 式 (23.11) 得 到 
(4pq)" 
Poo(2n) ~ i 
容易 验证 X Poo(n) < œ 当 且 仅 当 E po(2n) < oo. WA, X pol 2n) = co 4AM 
p=q= 1/2. 由 23.15 定理 , # p= 1/2, 该 链 为 常 返 的 ， Ase BRL. 
马尔 可 夫 链 的 收敛 性 ”为 了 讨论 马尔 可 夫 链 的 收敛 性 ， 需要 一 些 定义 ， 假 设 
Xo =i. 定义 常 返 时 间 


Tij = min{n > 0: Xn = j}. (23.12) 
假设 X 可 返回 状态 i, 否则 定义 Ty = 00. 一 个 常 返 态 i 的 平均 常 返 时 间 为 
mi = E(Ta) = Dnfa(n), (23.13) 


其 中 ， 
fi(n) =P(X1 # j, X2 # j ,Xn-1 # j, Xn = jlXo = i). 
车 mi = 00, 称 一 个 常 返 态 是 零 的 , 否则 称 之 为 非 零 的 或 正 的 . 
23.19 引 理 ”车 一 个 状态 是 零 的 且 是 常 返 的 , 则 ph 一 0. 
23.20 引 理 ”在 一 个 有 限 状 态 马尔 可 夫 链 里 , 所 有 的 常 返 态 都 是 正 的 . 
考虑 具有 三 个 状态 的 马尔 可 夫 链 , 其 转移 矩阵 为 


假设 该 链 的 初始 状态 为 1, 那么 将 在 时 刻 3, 6,9,… 到 达 状 态 3. 这 是 一 个 周期 链 的 
例子 . 正式 地 讲 , 车 pii(n) = 0, 其 中 , n 不 能 被 d 整除 且 d 是 满足 该 性 质 的 最 大 的 整 
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数 , 则 称 状态 i 的 周期 为 4. 因此 , d = ged{n : pa(n) > 0}, 其 中 , god 意思 为 “最 大 
公约 数 ”. 若 d(i) > 1, 称 该 链 的 状态 i 是 周期 的 , 若 d(i) = 1, 是 非 周期 的 . 周期 为 1 
的 一 个 状态 被 称 作 非 周期 的 

23.21 引 理 ”车 状 态 i 具有 周期 4 且 ij, 则 j 也 具有 周期 路 


23.22 定义 ”如 果 一 个 状态 是 常 返 的 , 非 替 的 且 是 周期 的 , 则 称 这 个 状态 i 是 遍 
历 的 . 若 其 所 有 的 状态 是 遍历 的 , 则 称 这 一 个 链 是 遍历 的 


A r= (miie X) 为 一 个 非 负数 向 量 , 且 分 量 和 为 1. 因此 不 可 以 视 为 一 个 概 
率 密度 函数 . 


23.23 EMS r= TP, MART 是 一 个 平稳 (或 不 变 ) 分 布 . 


这 里 给 出 直观 的 思路 . Xo 服从 分 布 并 且 假设 r 是 一 个 平稳 分 布 . 现在 根据 
马尔 可 夫 链 的 转移 概率 来 抽取 X. 得 到 X 的 分 布 为 m = oP =1P =T. Xo 的 
“分 布 为 iP? = (rP)P = rP =7. 如 此 继续 下 去 , 会 看 到 Xn 的 分 布 为 TP" =r. 
换 句 话说 : 
若 该 链 在 任何 时 候 都 具有 分 布 T, 则 它 将 持续 具有 分 布 T. 


23.24 定义 称 一 个 链 具 有 极限 分 布 r, 若 


T 


HFEA T, 即 rj = Jim Ph 存在 且 与 i 是 独立 的 - 


这 里 给 出 收敛 性 的 主要 定理 . 该 定理 表明 一 个 遍历 链 收敛 到 它 的 平稳 分 布 . 而 
E, 样本 均值 收敛 到 它 的 平稳 分 布下 的 理论 期 望 


23.25 定理 ARTH, 遍历 的 马尔 可 夫 链 具有 唯一 的 平稳 分 布 T. 极限 分 布 
存在 且 等 于 7. 若 g 是 任意 一 个 有 界 函 数 , 则 以 概率 1, 


N 
dim i Yo 9(Xn) > Erlo) = D900). (23.14) 
n=1 j 


最 后 , 还 有 另 一 个 在 后 文中 很 多 用 处 的 定义 . 满足 细致 平衡 若 


MiPij = PjiTj- (23.15) 
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细致 平衡 保证 了 x 是 一 个 平稳 分 布 . 

23.26 EE #r1r 满足 细致 平衡 , N r 是 一 个 平稳 分 布 . 

证 明 需要 证 明 xP =r. rP HR j NERY D mpa = Erpa = r Dp = 
Tj. 

当 讨论 第 24 章 中 的 马尔 可 夫 链 蒙特 卡 罗 方法 时 , 细致 平衡 的 重要 性 将 显现 
出 来 . . 
注意 ! 仅仅 因为 一 个 链 具有 一 个 平稳 分 布 并 不 意味 着 它 收敛 . 


23.27 例 + 
010 
P=/001 1]. 
100 


& w= (1/3, 1/3, 1/3), W rP = x, 所 以 是 一 个 平稳 分 布 . 若 该 链 是 从 分 布 r 开始 
的 , 它 将 停留 在 该 分 布 里 . 想象 模拟 许多 链 且 在 每 个 时 刻 n 去 验证 其 边际 分 布 . 它 ， 
将 水 远 为 均匀 分 布 r. 但 是 该 链 没 有 极限 . 它 将 继续 循环 下 去 . 

马尔 可 夫 链 的 例子 

23.28 Pl 4 X = {1,2,3,4,5,6}. > 


© 
© 
o 
o 


© 
o 


© © him BIH AIE RIE 
© Aik AIwnNi= 
© emeim o 
o alimale o 
NI NIE o 
NIP NIE BIE o 


0 


o 
o 


则 C1 = {1,2} E Co = {5,6} 是 不 可 约 的 闭 集 . 状态 3 和 状态 4 是 暂 留 的 因为 路 径 
为 3 一 4 一 6 且 一 旦 到 达 状 态 6 就 不 能 返回 3 或 4. 因为 pa(1) > 0, 所 有 的 状态 都 
是 非 周 期 的 . 总 之 , 3 和 4 是 暂 留 的 , 而 1, 2, 5 和 6 是 遍历 的 . 

23.29 例 (Hardy-Weinberg) ”这 里 有 一 个 著名 的 遗传 学 的 例子 . 假设 一 个 基因 
可 以 为 A 型 或 a 型 有 三 种 类 型 的 人 ( 称 作 基 因 型 ): AA, Aa 和 aa. 令 (p,q,7) 表示 
每 种 基因 型 的 人 的 比例 .假设 每 个 人 将 其 每 个 基因 型 的 两 个 基因 复 本 之 一 随机 地 
传 给 其 子女 . 还 假设 配偶 也 是 被 随机 选择 的 . 第 二 个 假设 在 现实 生活 中 是 不 实际 的 . 
然而 并 不 是 基于 AA, Aa 或 者 aa 来 选择 配偶 又 是 合 情 理 的 . 想象 若 将 每 个 人 的 基 
BRER. A 基因 的 比例 为 P= p+ (q/2) H a 基因 的 比例 为 8 = + (4/2). 一 
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个 孩子 有 基因 AA 的 概率 为 P, 为 aA 的 概率 为 2PQ, 而 且 为 aa 的 概率 为 8?. 因 
此 , A 基因 在 这 一 代 的 比例 为 
Po- (ps8) (or (+9): 

然而 ,> = 1 一 p 一 q. 将 其 代入 上 面 的 方程 则 会 得 到 P? + PQ =P. 相似 的 计算 表明 
“a” 基 因 的 比例 为 Q. 已 经 证 明 A 型 和 a 型 的 比例 为 P 和 Q, 且 这 将 在 第 一 代 后 
保持 稳定 . 从 第 二 代 开始 , 类 型 为 AA, Aa, aa 的 人 的 比例 则 为 (P?,2PQ,@”), 如 此 
下 去 . 这 被 称 作 Hardy-Weinberg 定律 . 

假设 每 个 人 恰好 有 一 个 孩子 . 现在 考虑 一 个 固定 的 人 且 令 Xn 为 他 们 第 m 代 的 
基因 型 . 这 是 一 个 马尔 可 夫 链 且 其 状态 空间 为 X = {AA, Aa aa}. 一 些 简单 的 计算 
将 表明 其 转移 矩阵 为 


onl 
v 

wn © 
© 

Ovlo = 


平稳 分 布 为 + = (P?,2PQ,Q?). 

23.30 例 (马尔 可 夫 链 蒙特 卡 罗 ) ”第 24 章 将 介绍 一 种 被 称 作 马 尔 可 夫 链 蒙特 
EF (MCMC) 的 模拟 方法 . 这 里 是 该 思想 的 简要 叙 述 . 令 f(z) 为 实数 轴 上 的 一 个 
概率 密度 函数 且 假设 f(z) = cg(z), 其 中 , g(z) 是 一 个 已 知 的 函数 且 c > 0 是 未 知 
的 . 原则 上 讲 , 可 以 计算 出 c, 因为 f(z)dz = 1 意味 着 = 1/ J g(z)dz. 然而 , 计算 
该 积分 可 能 行 不 通 , ME c 对 下 面 的 计算 也 没有 必要 . 令 Xo 为 一 个 任意 的 开始 值 
给 定 Xo,… Xi 按 下 面 方法 产生 Xin. 首先 , 选取 W ~ N(Xi,b?), 其 中 b>0 是 
一 个 固定 的 常数 . 令 

r= min gW) i i}. 


9(Xi) 


选取 U ~ Uniform(0,1) 且 设 定 


W, U<r, 
Xin = 
Xi, Ur. 


在 第 24 章 将 看 到 , 在 弱 条 件 下 , Xo, X1,… 是 以 一 个 遍历 的 马尔 可 夫 链 且 平稳 分 布 
为 f. 因此 , 可 以 将 选取 出 来 的 变量 看 作 来 自 f 的 一 个 样本 . 

马尔 可 夫 链 的 推断 ”考虑 一 个 具有 有 限 状态 空间 X = {1,2 , N} 的 马尔 可 
夫 链 . 假设 从 该 链 观 测 到 n 个 观测 X1,… Xn 一 个 马尔 可 夫 链 的 未 知 参数 为 其 初 
始 概率 po = (ho(1), Jo(2),…) 和 转移 矩阵 P 的 元 素 . P 的 每 行 是 一 个 多 项 分 布 . A 
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此 , 本 质 上 是 估计 NN 个 分 布 (加 上 初始 概率 ). 令 nij 为 从 状态 i 到 状态 j 的 转移 观 
测 数 . 似 然 函 数 为 


n N N 
Llo, P) = po(zo) [I px., x. = po(z0) [] [I p}. 
r=1 i=1j=1 
只 有 关于 po 的 一 个 观测 ， 所 以 不 能 对 它 做 出 估计 . 然而 , 可 以 集中 估计 P. 它 的 
MLE 可 以 通过 在 所 有 元 素 为 非 负 的 且 行 和 为 1 的 约束 条 件 下 极 大 化 Llo, P) 而 
得 到 . 其 解 为 


A 
其 中 , n= 三 mi. 这 里 假设 my > 0. 若 不 成 立 , 则 按 惯例 设 定 iy = 0. 
23.31 定理 (MLE 的 相合 性 和 渐进 正 态 性 ) ”假设 该 链 为 遍历 的 . A Pln) 表 
示 兄 次 观测 之 后 的 MLE, 则 P(n) > pij. 且 
[VNM Bis — pi)] ~ N(0, 5), 
其 中 , 左边 为 一 个 给 阵 ，Ni(n) = EX =i) a 


—PijPit, i=kjFé, 


Pij(l — pij), (i,j) = (k, 2), 
Dijke = 
0, 其 他 . 


23.3 泊 松 过 程 


泊 松 过 程 是 对 事件 发 生 进行 计数 中 产生 的 , 并 且 发 生 的 次 数 随时 间 发 生变 化 . 
例如 , 交通 事故 , 放射 性 衰变 , 邮件 信息 的 到 达 等 . 顾名思义 , 泊 松 过 程 是 与 泊 松 分 布 
紧密 联系 在 一 起 的 . 首先 来 回顾 一 下 泊 松 分 布 . 

回忆 X 具有 参数 为 和 的 泊 松 分 布 , 记 作 X ~ Poisson(A), # 


-Àr 
P(X =)= pA E, 2 =0,1,2,-- 


还 回忆 E(X) = 入 和 V(X) = à. # X ~ Poisson(A), Y ~ Poisson(v) 和 XIY, W 
X +Y ~ Poisson(\ +v). 最 后 , # N ~ Poisson(A) H Y|N = n ~ Binomial(n, p), 则 
Y 的 边际 分 布 为 Y ~ Poisson(Ap). 

现在 来 叙述 泊 松 过 程 . 想象 你 正在 电脑 前 . 每 当 收 到 一 封 新 邮件 , 就 记录 该 时 
刻 . 令 Xt 表示 到 时 刻 上 为止 你 所 收 到 的 邮件 数 , 则 {Xi,t € [0, co)} 是 一 个 状态 空 
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间 为 X = {0,1,2,---} 的 随机 过 程 . 此 种 形式 的 随机 过 程 称 作 计数 过 程 . 一 个 泊 松 
过 程 是 一 个 满足 特定 条 件 的 计数 过 程 . 在 下 文中 , 时 常会 写 X(t) 以 替代 X. mE, 
需要 下 面 的 记号 . 若 当 h 一 0 时 有 f(h)/h 一 0, 记 作 f(h) = olh). 这 意味 着 当 hh 趋 
于 0 时 , f(h) E h Eh. 例如 , h? = ofh). 


23.32 定义 一 个 泊 松 过 程 是 一 个 状态 空间 为 = {0,1,2,…} 的 随机 过 程 {Xt : 
te [0,o00]}. 它 要 满足 

1. X(0) = 0. 

2. 对 于 任意 的 0 = 二 to < ti < te <- <tn RE 


X(t1) — X(to), X(t2)— X(t), +++, X(tn)— X(tn-1) 
是 独立 的 . 
3. 存在 一 个 函数 A(t) 使 得 
P(X (t+ h) — X(t) = 1) = A(t)h + 0(h), (23.16) 
P(X (t + h) — X(t) > 2) = o(h). (23.17) 
那么 称 A(t) 为 强度 函数 . 


最 后 一 个 条 件 意味 着 在 [t,t +h] 内 一 个 事件 发 生 的 概率 近似 为 hA(t), 而 超过 一 个 
事件 的 概率 非常 小 . 
23.33 定理 # Xt 是 一 个 强度 函数 为 Alt) 的 泊 松 过 程 , 则 


X(s +t) — X(s) ~ Poisson(m(s + t) — m(s)), 


其 中 ， 
m(t) = f X(s)ds. 
0 


特别 地 , X(t) ~ Poisson(m(t)). 因此 , E(X (t)) = m(t) 且 V(X (t)) = m(t) 


23.34 定义 ”一 个 强度 函数 为 Alt) = ACA THA A > 0) 的 泊 松 进程 被 称 作 一 个 
READ 的 时 齐 泊 松 过 程 . 在 这 种 情况 下 ， 


X(t) ~ Poisson(At). 


令 X(t) 为 一 个 速率 为 ^ 的 时 齐 泊 松 过 程 . 令 Wa 为 第 ne 个 事件 发 生 的 时 刻 且 
令 Wo = 0. 随机 变量 Wo, Wa,--- 称 作 等 待 时 间 . 令 Sn = Wasi —Wa, W 50,51,… 
称 为 逗留 时 间或 间隔 时 间 . 
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23.35 EE GAH 50, S1,--- 为 IID 随 机 变量 . 它们 的 分 布 是 均值 为 1/ 和 的 
指数 分 布 , 即 它们 有 密度 
f(s) =), s>0. 
等 待 时 间 Wn ~ Gamma(n,1/\), 即 它 具 有 密度 


fu) = poate 


因此 , E(Wn) =n/A 且 V(Wp) = n/d2. 
证 明 首先 ,有 
P(S: > t) =P(X(t) = 0) =e™*. 
继而 可 知 Sı 的 CDF 为 1 -eX*. 这 就 得 到 了 Si 的 结果 . 现在 ， 


P(S2 > tlS1 = s) = P((s, s +4] 时 间 内 没有 事件 发 生 |S1 = s) 
三 P((s,s 十 如 内 没有 事件 发 生 )( 增 基 独 立 性 ) 


=e, 


因此 , 52 服从 一 个 指数 分 布 且 与 Sy 是 独立 的 . 结果 可 由 重复 该 推导 而 得 到 . Wn 的 
结果 可 以 由 指数 分 布 变量 的 和 具有 Gamma 分 布 而 得 到 . 

23.36 Bl 图 23.3 表示 位 于 Calgary 地 区 客户 对 一 个 WWW 服务 器 的 请 求 
图 . ”假设 这 是 一 个 时 齐 泊 松 过 程 , N = X(T) ~ Poisson(AT). 似 然 函 数 为 


L(A) x eT AT)". 


上 式 可 以 被 下 式 极 大 化 , 它 是 以 每 分 钟 作 为 单位 的 结果 


0 400 800 
时 间 


图 23.3 ”到 网 络 服务 器 的 请 求 . 每 条 竖 线 表示 一 个 事件 


O 更 多 的 信息 可 见 http://ita.ee.lbl.gov/html/contrib/Galgary-HTTP.html. 
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现在 让 用 拟 合 优 度 检验 来 检验 数据 服从 一 个 时 齐 泊 松 过 程 的 假设 . 将 区 间 [0, T] 
分 制 成 4 个 相等 长 度 的 区 间 h, Jp, Ia, 14. 若 该 过 程 是 一 个 时 齐 泊 松 过 程 , 则 在 给 定 
事件 总 数 的 情况 下 , 一 个 事件 落 入 这 些 区 间 中 任意 一 个 的 概率 应 该 是 相等 的 令 pi 
为 一 个 点 在 Ts 中 的 概率 . 原 假设 为 pi = po = ps = pa = 1/4. 既 可 以 用 似 然 比 检验 ， 
也 可 以 用 x? 检验 来 检验 该 假设 . 后 者 为 
£ (0; - Bi)? 
Ei * 


i=l 


其 中 , 0; 为 五 中 的 观测 数 , 且 E: = n/4 为 在 原 假设 下 的 期 望 数 . 这 就 得 到 X = 252 
AL p 值 接近 于 0. 这 是 反对 原 假设 的 一 个 很 强 的 证 据 , 所 以 拒绝 数据 来 自 于 一 个 
时 齐 泊 松 过 程 的 假设 . 这 也 不 足 为 奇 , 因为 本 期 望 强度 函数 是 随时 间 变 化 的 一 个 
函数 . 


23.4 文献 注释 
有 很 多 标准 的 材料 且 还 有 许多 很 好 的 参考 文献 包括 (Grimmett and Stirzaker, 
1982; Taylor and Karlin, 1994; Guttorp, 1995; Ross, 2002). 下 面 的 习题 来 自 这 些 书 . 


23.5 J 题 
L Xo, Xi1,… 为 一 个 状态 为 {0,1,2} 的 马尔 可 夫 链 且 转 移 矩 阵 为 


0.1 0.2 0.7 
P=| 09 0.1 0.0 j|. 
0.1 08 0.1 


假设 joo = (0.3, 0.4, 0.3). 求 P(Xo = 0, X1 = 1, X2) 和 P(Xo = 0, Xa = 1, X2 = 
1). 

2. & Yi Ya … 为 一 个 ID 观测 序列 使 得 P(Y = 0) = 0.1, P(Y = 1) = 0.3, 
P(Y = 2) = 0.2, P(Y = 3) =04. 4 Xo =0 E 


Xn = max{Y;, + , Yn}- 


证 明 Xo, Xi,…… 为 一 个 马尔 可 夫 链 并 求 其 转移 矩阵 . 
3. 考虑 状态 为 = {1,2} 的 两 状态 马尔 可 夫 链 , 其 转移 矩阵 为 


P= l-a a ; 
b 1-b 


I< SSS 
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并 


s 


其 中 ,0<a<1 且 0<b<1. 证明 


b a 
im P” = b a+b 
JP (eal ee ) 


a+b a+b 
考虑 第 3 题 中 的 马尔 可 夫 链 且 令 a = 0.1 和 b= 0.3. 模拟 该 链 . 令 


Aa) = DI = 1)， 
i=l 


(2) = 1 DOE) 
i=1 
分 别 表示 该 链 在 状态 1 和 状态 2 的 次 数 比例 . IH Bi (1) (2) 关于 的 图 
像 并 且 验 证 它们 收 全 到 上 一 个 问题 中 预测 的 值 . 
另 一 个 重要 的 马尔 可 夫 链 就 是 分 支 过 程 , 它 在 生物 学 、 基 因 学 和 核 物理 及 其 他 
领域 中 很 有 用 处 . 假设 一 个 动物 有 Y 个 后 代 . 令 mk = POY = 月 . 因此 ,对 于 所 
有 的 如 有 pk > 0 且 È pe = 1. 假设 每 个 动物 具有 相同 的 寿命 且 它 们 根据 分 
布 Pk 来 繁 入 后 代 . 令 X HA n 代 的 动物 数 . 令 Y, YL 为 第 n 代 产生 
的 后 代 . 注意 到 
Xapi =YP + YE. 
4 u = E(Y) Ho? = V(Y). 在 这 个 问题 中 ,始终 假设 Xo = 1. & M(n) = E(Xn) 
HE V(n) = V(Xn). 
(a) 证 明 M(n + 1) = #M(n) F V(n + 1) =? M(n) + èV (n). 
(b) 证 明 M(n) = u” E V (n) = 021+ p +-+ + p°’). 
(O BE u> UDARATI H u = 1 则 方差 如 何 呢 ? 车 / < 1 则 方差 又 如 
何 呢 ? 
(a) SEPIA n, Xn = 0 则 该 种 群 将 灭绝 因此 定义 灭绝 时 间 N 
N =min{n: Xn = 0}. 
4 F(n) = P(N < n) 为 随机 变量 N 的 CDF. 证 明 


F(n) = Spain —1))F, n=1,2,.… 
k=0 
提示 : 注意 到 事件 {N < n} 与 事件 {Xn = 0} 是 相同 的 . 因此 , PAN < 
n}) = P({Xn = 0}). 令 大 为 原始 父母 的 后 代数 目 . 种 群 在 时 刻 n 时 灭绝 
的 充 要 条 件 是 产生 于 个 后 代 的 上 个 子 种 群 在 第 n 一 1 代 将 灭绝 . 


23.5 习 题 315 


(e) 假设 po = 1/4, pı = 1/2, p2 = 1/4. 用 (d) 中 的 公式 来 计算 CDFF(n). 


6. 4 l 
0.40 0.50 0.10 
P= 0.05 0.70 0.25 |. 
0.05 0.50 0.45 
求 平稳 分 布 
7. EHE i 为 一 个 常 返 态 且 io j, Wj 是 一 个 常 返 态 . 
Be 1 1 
1 
393008 
人 
2 0 0 0 
p-| 000010 
T. E. A 1 
ry ey Oa 
0031000 
000001 
哪些 状态 是 暂 留 的 ? 哪些 状态 是 常 返 的 ? 
9.4 


p-(? 7 
1 0 

证 明 7 = (1/2,1/2) 是 一 个 平稳 分 布 . 该 链 收敛 吗 ? 为 什么 ? 
10. 令 0<p<1 且 g=1-p. 令 


qpo00o0 
q0p00 
P=|}¢q00p0 
q 000 p 
10000 


求 该 链 的 极限 分 布 . 

A X(t) 为 一 个 非 时 齐 的 强度 函数 为 Xt) > 0 的 泊 松 过 程 . 令 A(t) = fo A(u)du. 
定义 Y(s) = X(t), 其 中 s = A(t). 证 明 Y (s) 为 一 个 时 齐 的 强度 为 和 = 1 的 泊 
松 过 程 . 

. A X(t) 为 一 个 强度 为 入 的 泊 松 过 程 . 求 在 给 定 X(t +s) = n ht X(t) 的 条 件 分 
布 . 

. 令 X(t) 为 一 个 强度 为 和 的 泊 松 过 程 . OR X(t) 为 奇数 时 的 概率 , 即 P(X(t) = 

1,3,5,.…). 


= 


a 
已 


a 
名 
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. 假设 人们 登陆 到 大 学 计算 机 系统 可 以 被 强度 为 和 的 一 个 泊 松 过 程 X(t) 所 刻 


画 . 假设 一 个 人 以 一 个 cpz 为 G 的 随机 时 间 处 于 登陆 状态 . 假设 这 些 时 间 都 是 
独立 的 . & Y(t) 为 时 刻 t 处 于 系统 中 的 人 数 . RH Y(t) 的 分 布 . 


. 令 X(t) 为 一 个 强度 为 和 的 泊 松 过 程 . 令 Wi, Wo 为 等 待 时 间 . 令 f 为 一 个 


任意 的 函数 . 证 明 


X(t) 


B(S Ww) => f° fwaw. 


i=1 


. 一 个 二 维 的 泊 松 点 过 程 是 一 个 平面 上 的 随机 点 过 程 满足 (i) 对 于 任意 集合 A, 


落 入 A 中 的 点 数 服从 一 个 均值 为 (4) 的 泊 松 过 程 , 其 中 , (A) 是 4 的 面积 . 
(ii) 发 生 在 不 重重 区 域 中 的 事件 数 是 各 自 独立 的 . 考虑 平面 上 的 任意 一 点 To, 
用 X 记录 zo 到 最 近 的 随机 点 的 距离 . 证 明 

1 


P(X >t)=e-*"*, E(X)= we 
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本 章 将 说 明 如 何 用 模拟 来 近似 积分 . 最 重要 的 一 个 例子 是 贝 叶 斯 推断 中 
的 积分 计算 问题 , 但 是 该 技术 可 广泛 应 用 . 将 关注 三 个 积分 方法 : (i) 基本 蒙特 
卡 罗 积 分 , (ii) 重要 抽样 , (ii) 马尔 可 夫 链 蒙特 卡 罗 (MCMC). 


24.1 贝 叶 斯 推断 回顾 


模拟 方法 在 贝 叶 斯 推断 中 尤其 有 用 , 所 以 来 简要 回顾 一 下 贝 叶 斯 推断 的 主要 思 
想 . 更 多 细节 请 看 第 11 章 . 
给 定 一 个 枢 轴 量 f(B8) 和 数据 X” = (Xi1,… Xn), 后 验 密度 为 


f(01X") = LOL), 


其 中 , (0) 为 似 然 函数 且 
sE j £(0)f(0)do 
为 归 一 化 系数 . 后 验 均值 为 
j= J osx"ao = LOCO? 


若 0 = (01,.… 0) 是 多 维 的 , 则 可 能 对 其 中 的 一 个 分 量 感 兴趣 , 如 91. 该 边际 后 验 
密度 为 
JE = f fo f AO 0X”: age 


这 包含 高 维 积分 . 
当 9 是 高 维 的 , 将 这 些 积分 解析 地 计算 出 来 是 不 可 行 的 . 模拟 方法 往往 会 很 有 
帮助 . 


24.2 ”基本 蒙特 卡 罗 积 分 
假设 想 要 对 某 个 函数 计算 积分 
b 
I= [ h(z)dz. 


若是 一 个 “简单 ” 函数 , 如 多 项 式 或 三 角 函 数 , 则 可 以 得 到 积分 的 解析 表达 . Hh 
是 复杂 的 , 可 能 没有 已 知 的 工 的 解析 表达 . 有 很 多 数值 技术 来 计算 1, 如 Simpson 法 


一 一 一 
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M, 梯形 法 则 和 高 斯 求 积 公式 . 蒙特 卡 罗 积分 是 另外 一 种 近似 工 的 方法 , 它 以 其 简 
单 性 、 普 遍 性 和 可 扩展 性 而 著名 . 
以 下 式 开始 


I= J "hls)dz = f w(z)f(2)dz, (24.1) 
其 中 , w(x) = h(z)(b 一 a) H. f(x) = 1/(b 一 a). 注意 到 f Æ (a,b) 上 的 一 个 均匀 分 布 


随机 变量 的 概率 密度 . 因此 ， 
T= Es(w(X)), 


其 中 , X ~ Uniform(a, b). 若 产 生 Xi1,… ,XN ~ Uniform(a, b), 则 由 大 数 定 律 
N 
T= x 二 "co 2, E(w(X)) = I. (24.2) 


这 就 是 基本 蒙特 卡 罗 积 分 方法 index 蒙 特 卡 罗 积分 方法 . 可 以 计算 估计 的 标准 误差 


其 中 ， 


N-1 
其 中 , Yi = w(Xi). 了 的 一 个 1 一 a 置信 区 间 为 ÎE zaya. 可 以 将 N 取得 任意 大 且 
因此 使 得 置信 区 间 的 长 度 非常 小 . 
24.1 例 令 htz) = za. W, I= 及 zadz = 1/4. 基于 来 自 一 个 (0,1) 上 的 均匀 
分 布 的 N = 10000 个 观测 , 得 到 Î = 0.248 且 标 准 误差 为 0.0028. 
基本 方法 的 一 个 推广 是 考虑 如 下 形式 的 积分 : 


I= J h(x) f(a)de, (24.3) 


其 中 , f(z) 是 一 个 概率 密度 函数 . 取 f 为 一 个 (a,5) 上 的 均匀 分 布 密度 , 这 是 上 面 的 
一 个 特殊 情况 . 现在 选取 X1,… , Xn ~ f 且 如 前 面 一 样 取 


et ete 
fey Dax) 
24.2 fil 4 i 
natu tA 
f(z) = Tm 


为 标准 正 态 PDF. 假设 想 要 计算 在 某 点 z 的 CDF, 
I= 三 f(s)ds = (z). 
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记 
r= /yds 
其 中 ， 
w(t 


现在 产生 X1,… Xn ~ N(0,1) 并 设 定 
人 _ 工 、_ 观测 数 和 z 
T= NW) = 
例如 , 对 于 z = 2, 真实 答案 为 8(2) = 0.9772 而 N = 10000 的 蒙特 卡 罗 估 计 得 到 
0.9751. 而 用 N = 100000 则 得 到 0.9771. 
24.3 例 (两 二 项 分 布 的 贝 叶 斯 推断 ) 令 X~ /Binomial(n, pı) H.Y ~ Binomial 


(m, pa). 想 要 估计 ô = pa — pr. MLEX 5 = Pz — Bi = (¥/m) — (X/n). 可 以 由 Delta 
方法 得 到 标准 误差 &, 结果 为 


o- /BU 
n 
并 且 构 造 一 个 95% 的 置信 区 间 8 上 2 器， 现在 考虑 一 个 贝 叶 斯 分 析 ， 假 设 用 先 验 
For, pa) = f(x) (pa) = 1, 即 这 是 一 个 在 (p1p2) 上 的 扁平 先 验 . 后 验 分 布 密度 为 
(pr, PalX,¥) x p% (1 — pr)"~* py (1 — pa)”. 
5 的 后 验 均值 为 
1 1 1 1 

5= [stomp Yip = DS 

若 想 要 6 的 后 验 密度 , 可 以 先 得 到 后 验 CDF 
P(AX,¥) = P6 < cX, Y) = fprpalX, Ydpidps, 


其 中 , 4 = {(p1,p2) : p2 — pi < c}. 其 密度 可 以 通过 对 F 微分 得 到 . 
为 了 避 开 这 些 积分 计算 , 用 模拟 方法 . 注意 到 f(p1,p2|X,Y) = f(pi|X)f (PY), 
这 意味 着 p 和 po 在 后 验 分 布下 是 独立 的 . 而 且 , 可 以 看 到 pi|X ~ Beta(X + 
Ln—X+1) H palY ~ Beta(Y +1,m -Y +1). 因此 ， 可 以 从 后 验 分 布 来 模拟 
(PO, PP), , (P, PLY), 通过 抽取 
PO ~ Beta(X +1,n-¥Y +1), 
P$ ~ Beta(X + 1,m—Y +1), 


一 
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对 于 i=1,… N. 现在 令 60 = PO — PO, w 


加 1 i 
bey x 50, 
还 可 以 通过 选取 模拟 值 而 得 到 5 的 一 个 95%% 的 后 验 区 间 , 而 且 得 到 其 0.025 和 0.975 
的 分 位 点 . 后 验 密度 f(6|X,Y) 可 以 通过 对 5Q),… ,6(N) 用 密度 估计 技术 而 得 到 ， 
或 者 , 简单 地 通过 画 一 个 直方 图 而 得 到 . 例如 , B n =m = 10, X=8 和 Y= 56. 
从 一 个 大 小 为 1000 的 后 验 样本 得 到 一 个 95% 的 后 验 区 间 (—0.52, 0.20). 后 验 密度 
可 以 从 模拟 值 的 直方 图 估 出 , 见 图 24.1. 


ZZ 


06 00 06 
图 24.1 ”由 模拟 得 到 的 6 的 后 验 密度 


24.4 例 (剂量 反应 的 贝 叶 斯 推断 ) ”假设 进行 一 个 实验 , 给 老鼠 们 一 种 药物 的 
10 种 剂量 中 的 一 种 , 记 作 zl < za < … < zl10. 对 于 每 个 剂量 水 平 zi, 用 n 只 老鼠 
做 实验 , 并 且 用 Yi 记 这 n 只 老鼠 的 生存 数目 . 因此 , 有 10 个 独立 的 二 项 分 布 变量 
Y; ~ Binomial(n,pi). 假设 从 生物 学 的 角度 考虑 知道 越 高 的 剂量 导致 死亡 的 概率 越 
高 . 因此 , pi < p2 和 … < pro. 想 要 估计 这 些 动物 死亡 率 为 50% 时 对 应 的 剂量 . 这 
被 称 作 LD50. 正式 地 , ô = zj, 其 中 ， 


j =min{i : pj > 0.50}. 


注意 到 5 是 p1,… ,plo 一 个 (复杂 的 ) KARR, 所 以 对 于 某 个 g, 记 56 = g(p1,…… ,p10) 
这 就 意味 着 若 知道 (p1,… pro), 则 可 以 求 出 5. 5 的 后 验 均值 为 


J Jo [oes ,P10)f(p1,*** ,piolY1,*** , Yio)dpidp2 -+ - dp1o- 


BRERA 
A= {(p1,*… ,p10) :p1 < < Pio}. 
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6 的 后 验 cDF 为 
F(c|Y1, ++ , Yio) = P(6 < el¥i,--- , Yio) 
= J f [fo ,Pio|Y1,*** , Yio)dpidpe - --dpio, 


其 中 ， 
B= AN ;P10) : 9(P1,*** ,p10) < e}. 

需要 在 一 个 有 限制 的 区 域 4 上 作 一 个 10 维 的 积分 . 然而 , 可 以 采用 模拟 方法 . 让 取 
一 个 在 4 上 的 扁平 先 验 . 除了 截断 , 每 个 Pi 再 次 具有 一 个 Beta 分 布 . 为 了 从 后 验 
分 布 中 抽取 样本 , 采取 下 列 步骤， 

(1) 抽取 P; ~ Beta(Yi +1,n— Yi +1), i=1,-++,10. 

(2) 车 Pi < Pa < … < Pro, 继续 抽取 下 去 . 否则 , 丢掉 这 批 数据 并 再 次 抽取 直 
到 得 到 一 个 可 以 保持 的 样本 . 

(3) 令 5= zj, 其 中 ， 

j= min{i: P > 0.50}. 


重复 N 次 而 得 到 6M,--- 6) 且 取 


BGY Yio) a 5; 8. 
5 是 一 个 离散 变量 . 可 以 估计 其 概率 密度 函数 
N 
P(6 = zylYi Yio) = DME = 3). 
i=l 


例如 , 考虑 下 面 的 数据 ; 


es 
剂量 2 3 4 5 6 7 8 9 10 
动物 数 ni 15 1 1 15 15 15 15 15 15 15 
EHRM Yi 0 0 2 2 8 10 12 14 15 14 


从 后 验 抽 取 pa,… ,Pio, 得 到 5 = 4.04, 和 一 个 95% 的 置信 区 间 (3, 5). 


24.3 重要 抽样 


再 次 考虑 积分 工 = S h(z)f(z)dz, 其 中 f 是 一 个 概率 密度 . 基本 蒙特 卡 罗 方 法 
涉及 从 f 中 抽样 . 然而 , 有 很 多 可 能 不 知道 如 何 从 f 中 抽样 的 情况 . 例如 , 在 贝 叶 斯 
推断 中 , 后 验 密度 是 似 然 函 数 C(O) 与 枢 轴 量 (9) 的 乘积 . 没有 任何 保证 jblz) 会 
是 一 个 已 知 的 分 布 比如 正 态 或 Gamma 或 任何 其 他 的 . 
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重要 抽样 是 一 个 基本 蒙特 卡 罗 积分 的 推广 , 它 将 解决 该 问题 . 令 9 为 一 个 知道 
如 何 从 中 模拟 的 概率 密度 , 则 


t= f natoa = f MO gajar = £407), (24.4) 

其 中 ,Y = h(X)f(X)/9(X), BIE E (Y) 是 关于 9 WY. 可 以 模拟 X1,… XN ~g 
并 可 由 下 式 估计 I: i MXK) 

T-pE”-y Da I) (245) 


这 称 作 重要 抽样 . 由 大 数 定律 , TA 工 然而 , 忽然 意识 到 一 个 问题 . 了 具有 无 限 标准 
差 是 完全 有 可 能 的 . WT FARA, 回忆 了 为 w(z) = h(z)f(z)/g(z) 的 均值 . 该 量 
的 二 阶 矩 为 


2 
E,(u(x)) = f (24) seji = f BOAO ae (246) 


若 9 比 f 有 更 轻 的 尾部 , 则 该 积分 可 能 是 无 限 的 . 为 了 避免 这 种 情况 , 重要 抽样 中 
一 个 基本 的 规则 就 是 从 一 个 比 f 有 较 重 尾部 的 密度 g 中 抽取 样本 . 而 且 , 假设 g(z) 
在 某 个 集 4 上 较 小 而 f(z) 较 大 . FE, 比例 f/9 可 能 比较 大 以 至 于 导致 一 个 大 的 
方差 . 这 意味 着 应 该 选择 与 f 形状 相似 的 9. BZ, 重要 抽样 密度 g 的 一 个 较 好 的 
选择 应 该 要 求 与 与 f 相似 , 但 是 尾部 要 重 些 . 事实 上 , 可 以 说 g 的 最 优选 择 是 什么 . 
24.5 定理 极 小 化 了 的 方差 的 g 的 选择 为 
Ih(z)|f(z) 
J la(s)lf(s)ds” 


sa)= 
证 明 w= fh/g HH 
Estu?) - (elo) = f uosa- ( f loan) 
7 -SERE cous ( JHB] 
PORO doar- (fm oaa) | 


g(a) 
第 二 个 积分 并 不 依赖 于 9, 所 以 只 需要 极 小 化 第 一 个 积分 . 由 Jensen KER ( 见 定 
理 4.9) 有 
E,W?) > EW? = ( f Wola) . 


这 就 建立 了 Es(W?) 的 一 个 下 界 . 然而 , Eo (W) 等 于 该 下 界 即 完成 了 证 明 . 
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该 定理 很 有 意思 但 只 是 理论 上 的 兴趣 . 若 不 知道 如 何 从 f 中 抽样 , 则 不 可 能 从 
IIS @)/ 了 lh(s)1f(s)ds 中 抽样 . 在 实际 中 , 简单 地 去 寻找 一 个 与 fh| 相似 的 有 较 
重 尾部 的 分 布 9. 

24.6 例 ( 尾 概 率 ) 来 估计 = P(Z > 3) = 0.0013, 其 中 , Z ~ N(0,1). id 
T= J/ h(z)f(z)dz, 其 中 ,f(z) 为 标准 正 态 密度 目 若 = > 3, h(z) = 1, 其 他 情况 
为 0， 基 本 蒙特 卡 罗 估 计 为 Î = 入 本 h(Xi) 其 中 Xa, Xv ~ N(0,1). 用 
N = 100 时 , (从 模拟 很 多 次 中 ) RH E(7) = 0.0015 H V(Î) = 0.0039. 注意 到 大 
多 数 观测 是 废弃 的 , 这 是 在 大 多 数 观 测 都 不 在 右边 尾部 附近 的 意义 下 而 言 的 . 现在 
将 要 用 重要 抽样 来 估计 1, 其 中 9 是 标准 正 态 分 布 的 密度 函数 ， 从 9 中 抽取 数值 
并 且 估 计 为 了 = N- LF (X)h(Xs)/9(Xi). 在 这 种 情况 下 , RI E) = 0.0011 H. 
V(7) = 0.0002. 已 将 标准 差 降低 了 20 4. 

24.7 例 ( 带 离 群 点 的 测量 模型 ) 假设 有 某 个 物理 量 9 的 测量 X,,---,X,. 一 
个 合理 的 模型 为 

Xi =0+6. 
若 假设 e ~ N(0,1), 则 Xi ~ N(0;, 1). 然而 , 开始 测量 时 , 得 到 一 些 偶然 的 失控 的 点 ， 
或 离 群 点 的 情况 是 常常 出 现 的 . 这 意味 着 一 个 正 态 假设 模型 可 能 是 一 个 不 适当 的 模 
型 , HA ESSA RAWE, 这 就 意味 着 极端 观测 是 罕见 的 . 改善 该 模型 的 一 个 方法 
就 是 用 一 个 有 较 重 尾部 的 密度 函数 取代 < 例如 , 一 个 自由 度 为 v 的 t 分 布 , 形式 为 
T((v+1)/2) 1 z2\ (+)/2 
t(z) = ML 人 + =) . 
v 的 较 小 的 值 对 应 着 较 重 的 尾部 . 为 了 说 明 该 问题 , 取 v = 3. 假设 观测 n 个 X = 
Oe = ly 其 中 , a 具有 一 个 v= 3 的 分布. 将 对 9 取 一 个 平 枢 轴 . 似 然 函 数 
为 £(9) = I t(Xi 一 0) E 0 的 后 验 均值 为 


J 9c(0)d0 
OLJ 


可 以 通过 重要 抽样 来 估计 上 面 和 下 面 的 积分 . 抽取 91,… ,bw ~ 9, 则 


f= 


为 了 说 明 思想 , 抽取 n = 2 个 观测 .后 验 均值 (数值 计算 ) 为 -0.54. 用 一 个 正 态 重 
要 抽样 9 得 到 一 个 估计 -0.74. 用 一 个 柯 西 (具有 1 个 自由 度 的 t 分 布 ) 重要 抽样 
得 到 一 个 估计 一 0.53. 


324 第 24 章 模拟 方法 


24.4 MCMC 第 一 部 分 : Metropolis-Hastings 算法 


再 次 考虑 估计 积分 I = J nz)f(z)dz 问题 ， 现 在 介绍 马尔 可 夫 链 蒙特 卡 罗 
(MCMC) 方法 . 思路 是 构造 一 个 马尔 可 夫 链 X1, X2,… ,其 平稳 分 布 为 f. 在 一 定 
的 条 件 下 , 有 


Wh P 
F Dh(Xi) = Es(h(X)) =I. 
i=l 


这 是 成 立 的 , 根据 马尔 可 夫 链 的 大 数 定律 上 式 成 立 , 见 定理 23.25. 

Metropolis-Hastings 算法 是 一 种 特殊 的 MCMC 方法 , 其 步 又 如 下 : 令 q(y|z) 
为 任意 一 个 友好 的 分 布 ( 即 知道 如 何 从 aule) 中 抽样 ). 条 件 密度 q(ylz) 被 称 作 建 
议 分 布 . Metropolis-Hastings 算法 产生 如 下 的 一 系列 观测 Xo, Xi …. 


Metropolis-Hastings 算法 
任意 地 选择 Xo. 假设 已 经 产生 Xo, X1,… ,Xi. 为 了 产生 Xiri, MU FAR: 


(1) 产生 一 个 建议 或 备 选 值 Y ~ gq(y|Xi). 
(2) 计算 > = r(Xi,¥), 其 中 


_ S f(y) alely) 
rey) = mind ay tf 


(3) 设 定 


Xi, 以 概率 1 一 


xaf Y， 以 概率 7， 


24.8 注 HITHER (3) 的 一 个 简单 方法 是 产生 U ~ (0,1). HU <r, WS 
Xin =Y, 否则 Xi = Xi. 

24.9 È ”对 于 某 个 上 > 0, N(w, 6?) 是 a(yle) 的 一 个 常用 的 选择 . 这 意味 着 建 
议 是 从 一 个 正 态 分 布 中 抽取 的 , 中 心 在 当前 值 . 在 这 种 情况 下 , 建议 密度 g 是 对 称 
的 , q(y|z) = gq(zly), mE r 简化 为 

RR | 
ra 中 

由 构造 , Xo X1,… , 是 一 个 马尔 可 夫 链 . 但 是 为 什么 该 马尔 可 夫 链 的 平稳 分 布 
为 j 在 解释 原因 之 前 , 先 来 做 一 个 例子 . 

24.10 例 ” 柯 西 分 布 具 有 密度 


/四 = 二 
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目标 是 模拟 一 个 平稳 分 布 为 f 的 马尔 可 夫 链 . 如 上 述 注 所 建议 的 那样 , q(y|z) 为 一 
个 正 态 分 布 N(z, 好 ). 在 这 种 情况 下 ， 


本 
roa) = min en Te 
所 以 算法 是 抽取 Y ~ N(Xi, 0?) 并 且 设 定 


ids { Y, 以 概率 7(Xi,Y)， 
i+1 = 
Xi, 以 概率 1 一 r(Xi,Y). 


YYV ano 
rr Ain | 
~All heed 


图 24.2 对 应 于 b= 0.1, b= 1, b= 10 H=* Metropolis 链 


该 模拟 需要 对 5 作出 一 个 选择 . 图 24.2 给 出 长 度 N = 1000 的 三 个 链 , 分 别 用 
5 =0.1,b=1 Al b= 10. 令 b= 0.1 使 得 该 链 选取 较 小 的 步 长 . 结果 该 链 没有 “ 探 
R” 到 太 多 的 样本 空间 信息 . 从 样本 得 到 的 直方 图 也 没 能 很 好 地 估计 真实 的 密度 函 
数 . 令 b = 10, 这 样 导致 由 样本 数据 得 到 的 直方 图 有 较 长 的 尾部 且 r 较 小 , 因此 拒 
Hi b= 10 这 个 建议 , 让 该 链 保持 在 当前 的 位 置 . 这 再 次 意味 着 从 样本 得 到 的 直方 图 
对 真实 密度 近似 的 结果 不 太 好 . 中 间 的 选择 则 避免 了 这 些 极端 情况 而 且 得 到 一 个 能 
更 好 描述 真实 密度 的 马尔 可 夫 链 样本 . 总 之 , 有 很 多 调节 参数 且 马 尔 可 夫 链 的 效率 
是 依赖 于 这 些 参数 的 . 这 将 在 后 面 详细 讨论 . 

车 从 马尔 可 夫 链 得 到 的 样本 开始 “看 起 来 像 ” 目标 分 布 f, 则 说 该 链 是 “混合 
良好 的 ”. 构造 一 个 混合 良好 的 链 在 某 种 程度 上 是 种 艺术 
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为 什么 它 可 以 姿 效 ”回忆 第 23 章 , 一 个 分 布 r 满足 一 个 马尔 可 夫 链 的 细致 平 
t, 若 
DijT = DJ1iTT- 
BAERE r 满足 细致 平衡 , 则 它 是 该 链 的 一 个 平稳 分 布 . 
因为 现在 处 理 连续 状态 马尔 可 夫 链 , 将 稍微 改变 一 下 记号 并 记 ple, y) 是 从 x 
到 y 的 一 个 转移 概率 . 而 且 , 用 f(z) 而 不 是 来 表示 一 个 分 布 . 在 这 个 新 记号 规定 
F, Æ f(z) = f(y)p(y,z)dy, f 是 一 个 平稳 分 布 , 且 若 


F(x)p(z,y) = f(y)p(y, z). (24.7) 
7 是 细致 平衡 的 . 细致 平衡 意 味 着 是 一 个 平稳 分 布 , 因为 若 细致 平衡 成 立 , 则 
fiuma J fopte, way = se) [renw ro. 


这 表明 f(z) = /f(y)p(y,z)dy, 这 正 是 所 需要 的 . 目标 是 证 明 /满足 细致 平衡 将 意 
味 着 S 是 马尔 可 夫 链 的 一 个 平稳 分 布 . 
考虑 两 点 z Al y. 


f(z)a(ylz) < f(y)a(zly) 或 者 f(z)a(ylz) > f(y)a(zly). 
将 忽略 相等 情况 (对 连续 分 布 情形 发 生 的 概率 为 0). 不 失 一 般 性 , 假设 
f(z)a(ylz) > f(y)a(zly), 
这 意味 着 


f(y) alely) 
f(x) a(ylz) 


及 rGyz) = 1. 现在 p(z,y) WH x BEB 的 概率 . 这 需要 两 个 条 件 : (i) 建议 分 布 必 
须 产生 y, E (i) 必须 接受 y. 因此 ， 


r(z,y) = 


pleo) = aur (2,») = aula) R EW = Fall), 


因此 ， 
f(z)p(z,y) = f(y)a(aly). (24.8) 


另 一 方面 , p(y,z) 为 从 y 跳 到 z 的 概率 . 这 需要 两 个 条 件 : (i) 建议 分 布 必须 产生 z, 
H (ii) 必须 接受 zx. 这 发 生 的 概率 为 ply, x) = gq(zly)r(y,z) = q(zly). 因此 ， 


f(y)p(y, x) = f(y)a(zly). (24.9) 


比较 式 (24.8) 和 式 (24.9), 已 经 证 明细 致 平衡 成 立 . 
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还 有 些 不 同类 型 的 MCMC 算法 . 这 里 将 考虑 一 些 最 流行 的 版 本 . 
随机 游 动 -Metropolis-Hastings 在 上 一 节 中 , 考虑 抽取 


Y=Xit+e, 


其 中 , ei 来 自 某 个 密度 为 g 的 分 布 . 换 句 话说 , g(ylz) = oly — z). 看 到 在 这 种 情况 


f(y) 
y, 
r(z,y) = minf 1, nate 

这 被 称 作 随机 游 动 -Metropolis-Hastings 方法 . 起 这 个 名 字 的 原因 是 若 不 执行 接 
受 - 拒绝 的 步骤, 将 模拟 一 个 随机 游 动 . 常用 的 g 的 选择 是 N(0,0?). 困难 的 地 方 
是 选择 b 以 使 得 该 链 混合 良好 . 一 个 好 的 经 验 法 则 是 : 选择 以 使 得 接受 建议 大 约 
50% 的 时 间 . 

注意 ! 该 方法 没有 意义 除非 X 在 实数 轴 上 取 值 . 若 X 被 限制 在 某 个 区 间 上 ， 
则 最 好 对 X 做 个 变换 . 例如 , 若 X | (0,co) 则 可 以 取 了 = log X 并 且 再 模拟 Y 的 
分 布 而 不 是 X. 

独立 -Metropolis-Hastings 这 是 MCMC 的 一 个 重要 抽样 版 本 . 从 一 个 固定 的 
分 布 9 中 抽取 建议 . 一 般 地 , 9 是 被 选择 来 作为 f 的 一 个 近似 . 接受 概率 变 为 


= inf, £00 912) 
res) = nf Fajs) } ; 


Gibbs 抽样” 前 两 种 方法 在 原则 上 比较 适用 于 高 维 情况 . 在 实际 中 , 调节 马尔 
可 夫 链 使 得 它们 混合 良好 是 困难 的 . Gibbs 抽样 是 一 种 将 一 个 高 维 问题 转化 为 一 些 
一 维 问题 的 方法 . 


这 里 给 出 其 对 于 二 元 变量 问题 的 工作 原理 . 假设 (X,Y) 具有 密度 fxy(z,y)，. 


首先 , 假设 从 条 件 分 布 fxly (zly) 和 fx lule) 模拟 是 可 能 的 . 令 (Xo, Yo) 为 起 始 值 . 
假设 已 经 抽取 (Xo, Yo), , (Xn, Yn), 则 得 到 (Xn+1, Yn+1) 的 Gibbs 抽样 算法 为 : 


Gibbs 抽样 


Xnti ~ fxiy(zl¥n), 
Yasui ~ fyix(ylXn41); 


这 很 容易 推广 到 高 维 情形 . 
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24.11 例 ( 正 态 分 层 模型 ) Gibbs 抽样 对 于 一 类 所 谓 分 层 模型 来 说 非 
这 里 给 出 一 个 简单 的 情况 . 假设 抽取 大 个 城市 的 样本 . 从 每 个 城市 中 抽取 ns 
并 观测 有 多 少 人 Y: B. 因此 , Y; ~ Binomial(ni,pi). 允许 在 不 同 的 城市 有 不 同 的 
患 病 率 . 还 可 以 把 p 看 作 来 自 某 个 分 布 F 的 随机 抽样 . 可 以 按 下 面 的 方式 写 这 个 
模型 ， , 
RP ~F, 
Y;|P; = pi ~ Binomial(ni, pi). 
这 里 对 估计 pi 和 总 的 患 病 率 / pdF(p) 感 兴趣 . 
为 了 进行 下 去 , 是 否 做 些 变换 以 允许 其 用 某 种 正 态 近似 作 某 种 变化 能 简化 问题 . 
S Bi = Yi/ni. EIZ A ~ N(pi, si), HH si = VAN- A). Q hi = log(pi/(1-pi)) 
且 定 义 Z = f = log(/(1 — f). 由 Delta 方法 ， 
Pi ~ N(Wi,0?) 
其 中 0? = 1/(npi(1 — pi). 经 验 表 明 对 于 Y 的 正 态 近 似 要 比 对 于 |p 的 正 态 近似 精 
WE, 所 以 应 该 选择 用 v. 应 该 将 o; REBA. 进一步, 应 取 w 的 分 布 为 正 态 的 . 
现在 分 层 模型 为 
vi ~ N(u,77), 
Zily ~ N(is0?). 
至 于 另 一 种 简单 情形 是 取 7 = 1. 未 知 参数 为 0 = (u, Y, ,Wk). 似 然 函 数 为 


LO) « JI fw JJA) 
« Tleo{-30% 一 wy} ep{- 直 (2 = wP} 


若 使 先 验 f(u) x 1, 则 后 验 密度 是 与 似 然 函数 成 比例 的 . 为 了 用 Gibbs 抽样 , 需要 
求 出 每 个 参数 的 条 件 分 布 , 这 些 参数 依赖 于 所 有 其 他 的 参数 , 这 里 以 寻找 fu| 其 他 ) 
开始 ,“ 其 他 ”表示 所 有 其 他 变量 . 可 以 丢掉 任何 不 包含 u 的 项 . 因此 ， 


JU 其 他 ) x Ies{-ie -9 
x exp{-Fu.—0)}, 


其 中 ， i 
b= z2 
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因此 看 到 uite ~ N(b,1/k). 接 下 来 将 求 出 fu| 其 他 ). 再 一 次 , 可 以 丢掉 任何 不 包 
E vi 的 项 , 这 就 有 


Fle) <ep{ —5 (vs — w?} exp — bet — vy? 


x exp -zg -ay}, 


ii Zijo? +p 2 1 
a Taye ae 
所 以 WW 其 他 ~ N(ei,d?). Gibbs 抽样 算法 包含 如 下 的 N UE: 
抽取 jp ~ N(b,v?), 


抽取 加 ~ N(e1, di), 


抽取 Ww ~ N (ex, 2). 
于 是 可 以 理解 在 每 一 步 过 程 中 , 最 近 抽取 的 每 个 变量 版 本 是 被 明 过 的 . 


i 
0 500 1000 


1000 


图 24.3 i 24.11 的 后 验 密度 模拟 
上 图 给 出 了 pi 的 模拟 值 . 下 图 给 出 了 a 的 模拟 值 


产生 一 个 上 = 20 个 城市 且 每 个 城市 为 n = 20 个 人 的 数值 例子 . 在 运行 马尔 
可 夫 链 之 后 , 可 以 将 每 个 i 通过 pi = eh /(1 + e”) 转换 回 pi. 原始 比例 可 参见 图 
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24.4. 图 24.3 给 出 了 对 于 pi 和 上 的 马尔 可 夫 链 的 “ 迹 点 ”. 图 24.4 给 出 了 基于 模 
拟 值 的 4 的 后 验 密度 . 图 24.4 中 的 第 二 个 图 给 出 了 原始 比例 和 贝 叶 斯 估计 . 注意 到 
贝 叶 斯 估计 “收缩 到 一 起 了 . 参数 7 控制 了 收缩 量 . 令 r= 1, 但 是 在 实际 中 , 应 该 
将 7 看 作 是 另 一 个 未 知 参数 且 让 数据 决定 需要 多 少 收缩 量 . 


BABIN 


图 24.4 ”基于 模拟 值 的 4 的 后 验 密度 
上 图 , u 的 后 验 密度 直方 图 . FE: 原始 比例 和 贝 叶 斯 后 验 密度 估计 . 贝 叶 斯 估计 比 原始 比例 收缩 得 更 紧凑 . 


迄今 为 止 , 假设 了 知道 如 何 从 条 件 分 布 密度 fxly(zly) 和 fix (le) 抽取 样本 . 
若 不 知道 如 何 抽取 , 仍 可 以 用 Gibbs 抽样 算法 , 这 可 通过 用 Metropolis-Hastings 步 
PRAT MLM. 令 q 为 关于 z 的 一 个 建议 分 布 并 令 5 为 一 个 关于 y 的 建议 分 
Ai. 当 对 于 X 进行 一 个 Metropolis 步骤 时 , 将 Y 看 作 是 固定 的 . 相似 地 , 当 对 于 Y 
进行 一 个 Metropolis 步 又 时 , 将 X 看 作 是 固定 的 . 这 里 给 出 步 又， 


Gibbs 中 的 Metropolis 


(la) 制定 Z ~ q(z|Xn). 
(1b) 计算 


_ f IZ Ya) qlXnl2) 
ra 
(1c) $ 
x [Z 以 概率 7 
"| Xe 以 概率 1 一 7 


(2a) 抽取 一 个 方案 Z ~ 4(z|Y%). 


anf IXa: 2) al2) 
min 7x Yn) 4(Z| Ya)” 路 


(2c) & 


同样 地 , 这 可 推广 到 二 维 以 上 的 情形 . 


24.6 文献 注释 


MCMC 方法 可 追溯 到 第 二 次 世界 大 战 期 间 建造 原子 弹 的 工作 . 后 来 它们 被 应 
用 到 许多 地 方 , 特别 是 在 空间 统计 学 中 . 在 20 世纪 90 年 代 又 有 兴起 一 股 新 的 研究 
热潮 , 并 仍 在 继续 本章 的 主要 参考 文献 为 (Robert and Casella, 1990). 还 可 参考 
(Gelman et al., 1995; Gilks et al., 1998). 


24.7 J 题 


2 e72?°/2 
I= J aie 
(a) 用 基本 蒙特 卡 罗 方 法 估计 I. 用 N = 100000. 而 且 , 求 出 标准 误差 估计 . 
(b) RH (a) 中 你 的 估计 的 标准 误差 的 一 个 解析 表达 式 . 与 标准 误差 估计 进行 
比较 . 
(c) 用 重要 抽样 估计 I. 取 g 为 N(1.5,v?), 其 中 v=0.1,v=1 和 w= 10. 在 每 
种 情形 计算 (真实 ) 标准 误差 . 而 且 , 依据 正在 计算 的 平均 值 画 一 个 直方 图 
来 观察 是 否 有 极端 值 . 
(qd) 求 出 最 优 重要 抽样 函数 g*. 选择 用 g* 时 其 标准 误差 是 多 少 ? 
2. 这 里 有 一 种 用 重要 抽样 来 估计 一 个 边际 密度 的 方法 . © fx,Y(z,y) 为 一 个 二 元 
变量 密度 且 令 (X1, X2),… , (Xn, Yn) ~ fxy- 
(a) 令 w(x) 为 一 个 任意 的 概率 密度 函数 . 令 


Fay = ptt, 


1.4 


证 明 对 于 每 个 T, 
fx(z) © fx(2). 
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求 该 估计 的 方差 的 一 个 表达 式 . 
(b) $ Y ~ N(0,1) E XIY =y~N(y,1+y?). 用 (a) 中 的 方法 来 估计 fx (2). 
3. 这 里 有 种 称 为 接受 - 拒绝 抽样 的 方法 , 它 是 用 来 从 一 个 分 布 中 抽取 观测 . 
(a) 假设 f 为 某 种 概率 密度 函数 . 令 9 为 任何 其 他 的 密度 并 假设 对 于 所 有 的 
z, f(x) < Mg(z), 其 中 M 是 一 个 已 知 的 常数 . 考虑 下 面 的 算法 : (第 一 步 ): 
aR X ~ g HU ~ Uniform(0,1); (第 二 步 ): HU < f(X)/(Mg(X)), 则 
AY =X, 否则 返回 第 一 步 . (继续 这 样 下 去 直到 你 最 后 得 到 一 个 观测 ) 
证 明 Y 的 分 布 为 f. 
(b) & f 为 一 个 标准 正 态 密度 且 令 g(z) = 1/(1+z?) 为 柯 西 密度 . 应 用 (a) 中 
的 方法 从 正 态 分 布 中 抽取 1000 个 观测 . 对 样本 画 一 个 直方 图 来 验证 样本 
看 起 来 是 正 态 的 . 
4. 一 个 随机 变量 Z 具有 逆 高 斯 分 布 若 它 具 有 密度 


f(z) x 2-3/2 | 一 biz 一 和 十 2Vb102 十 ioe( V28) }, z>0, 
其 中 , 01 > 0 和 b > 0 为 参数 . 可 以 证 明 


Oz 1 页 1 
OM 

(a) $ 0, =1.5 H 62 = 2. 用 独立 -Metropolis-Hastings 方法 抽取 一 个 大 小 为 
1000 的 样本 . 用 一 个 Gamma 分 布 当 作 建 议 密度 . 为 了 评价 精确 度 , 将 Z 
和 1/2 的 样本 均值 与 理论 均值 进行 比较 . 尝试 不 同 的 Gamma 分 布 以 看 看 
是 否 可 以 得 到 一 个 精确 的 样本 . 

(b) 用 随机 游 动 -Metropolis-Hastings 方法 抽取 一 个 大 小 为 1000 WHA. A 
为 z > 0, 不 能 仅 用 一 个 正 态 密度 . 另 一 种 方法 是 这 样 的 . 令 W = log 2. 
求 出 W 的 密度 . 用 随机 游 动 -Metropolis-Hastings 方法 来 得 到 一 个 样本 
Wis ,WN 并 令 Zi = eW. 与 (a) 部 分 一 样 评价 模拟 的 精确 度 . 

5. 从 本 书 网 站 上 获得 心脏 病 数据 . 考虑 Logistic 回归 模型 的 一 个 贝 叶 斯 分 析 


大 
Bot X Bizi 
e = 


P(Y =1|X = 1) = 
1+e 
(a) 用 扁平 先 验 f(6o,… ,Bk) x 1. 用 Gibbs-Metropolis 算法 从 后 验 密度 f (bo, 
BIZGE) 来 抽取 一 个 大 小 为 10000 的 样本 . 对 于 6; 画 出 后 验 密度 的 直方 
图 . 求 后 验 均值 和 对 于 每 个 2 的 一 个 95% 的 后 验 区 间 . 
(b) 将 所 得 分 析 与 用 极 大 似 然 的 频率 学 派 的 方法 比较 . 


z x 
Bot X Bizi 
fa 
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符号 列表 
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R 实数 
inf f(e) 下 确 界 : 对 于 所 有 的 = E A, 使 得 y < f(z) 的 最 大 y 什 


把 这 看 作 是 f 的 最 小 值 
sup f(z) 上 确 界 ， 对 于 所 有 的 z < A, 使 得 y > f(z) 的 最 小 y 值 
ze. 


把 这 看 作 是 f 的 最 大 值 
n! nx(n—l)x(n—2)x...x3x2x1 
n n! 
k k!(n — k)! 
T(a) Gamma 函数 5° yc-le-ydy 
Q 样本 空间 (结果 集 ) 
w SR, TER, 点 
A 事件 (O 的 子 集 ) 
Taw) 指示 函数 , 如 果 w E 4 为 1, 否则 为 0 
lAl 集合 4 中 的 点 数 
概率 符号 
事件 4 的 概率 
4 和 已 独立 
A WB AM B 不 独立 
累积 分 布 函数 Fx (z) = P(X < z) 
概率 密度 函数 
X 服从 分 布 F 
X 的 密度 函数 为 f 
X 和 Y 服从 相同 的 分 布 
独立 同 分 布 
“Xn~F 从 下 抽取 的 样本 量 为 n 的 独立 同 分 布 样本 
标准 正 态 概率 密度 
标准 正 态 分 布 函数 
Ža N(0,1) 的 上 a SHUM: za = 8-1 (1 — a) 
E(X) = f zdF (z) 随机 变量 X 的 期 望 (均值 ) 
E(r(X)) = Jr(z)dF(z) 随机 变量 r(X) 的 期 望 (均值 ) 
V(X) 随机 变量 X 的 方差 
Cov(X,Y) X,Y 的 协 方差 
XI ,Xn 数据 
n 样本 量 
收敛 符号 
R 依 概 率 收敛 
~ AATEC 
qm 依 均 方 值 收 全 
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Xn ~ Nu, 02) (Xa = Won ~> NOI) 
In = o(an) Enan 一 0 
Zn = O(an) Š n 足够 大 时 |zn/an| 有 界 
Zn = op(an) zn/an PO 
Zn = Op(an) Š n 足够 大 时 |zn/an| 依 概率 有 界 
统计 模型 
s 统计 模型 ， 分 布 函数 、 密 度 函数 或 回归 函数 的 集合 
8 参数 
ê 参数 估计 
T(F) 统计 泛 函 (如 均值 ) 
Cn(g) UREK 
有 用 的 数学 公式 
oo at 2 
ea Daal d+ 
sw = ato <r<k 
f- 


„im (1+ £)" = ee. 


Stirling 近似 ,ml ~ n"e~" Inn. 


Gamma 函数 . Gamma 函数 定义 为 : 对 a > 0, 有 


ro = /yte-vdy, 


如 果 a > 1, W Pa) = (a - IJ)F(a — 1). 如 果 n 是 正 整数 , 则 T(n) = (n — 1)!. 一 些 特例 为 ， 


r0) = 1 和 T(1/2) = ve. 
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饱和 模型 ，231 

贝塔 分 布 , 22 

贝 叶 斯 定理 , 8 

贝 叶 斯 分 类 规则 , 275 
贝 叶 斯 风险 , 155 
贝 叶 斯 估计 , 155 

贝 叶 斯 规则 , 156 
贝 叶 斯 检验 , 145 

贝 叶 斯 理论 体系 , 138 
贝 叶 斯 推断 , 138 

贝 叶 斯 推断 , 68 
贝 叶 斯 网 络 , 205 

贝 叶 斯 信息 准则 , 173 
贝 叶 斯 信息 准则 , 176 
备 选 , 324 

备 择 假 设 , 72, 117 
比较 风险 函数 , 152 
闭 的 , 304 

边际 分 布 , 25 
遍历 的 , 307 

标准 差 , 40 
标准 正 态 分 布 , 20 
表示 , 207 
伯 努 利 分 布 , 19 

泊 松 分 布 , 19 

泊 松 过 程 , 311 
不 等 式 , 50, 51 
不 可 约 的 , 304 

不 相遇 , 206 
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参数 , 19 

参数 Bootstrap 方法 , 104 
参数 空间 , 67 

参数 模型 , 67 

常 返 的 , 305 

常 返 时 间 , 306 

成 对 马尔 可 夫 图 , 219 
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持久 的 , 305 

尺度 系数 , 267 
充分 统计 量 , 107 
充分 性 , 106 
抽样 分 布 , 69 
窗 格 , 234, 236 
HR, 236 
错误 发 现 比例 , 131 


大 数 定律 ， 55 

大 样本 理论 , 55 

带宽 , 242 

单 参数 指数 族 , 109 
单 点 分 布 , 18 

刀 切 法 , 88 

等 待 时 间 , 311 

第 二 类 错误 , 117 
第 三 分 位 数 , 18 

第 一 分 位 数 , 18 
第 一 类 错误 , 117 

点 估计 , 69 

逗留 时 间 , 311 

独立 的 , 5, 26, 161 

对 数 似 然 函 数 ，183，184 
对 数 线性 模型 , 222, 225 
对 数 线性 展开 , 225 

多 参数 模型 ，102 

多 项 分 布 , 30 

多 元 Delta 方法 , 62 
多 元 回归 , 250 

多 元 正 态 分 布 , 30, 183 
多 元 中 心 极限 定理 , 61 


E 
二 次 判别 分 析 , 276 
二 项 式 分 布 , 19 

F 
AE, 267 
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范 数 , 254 
方差 , 42 
方差 - 协 方差 矩阵 ,42 
非 参 数 回归 , 247 
核 方 法 , 292 
非 参数 模型 ，67 
非 零 的 , 306 
非 循环 的 , 206 
非 周期 的 , 307 
分 布 
x? 分 布 , 125 
t 分 布 , 22 
贝塔 分 布 , 22 
伯 努 利 分 布 , 19 
泊 松 分 布 , 19 
单 点 分 布 , 18 
多 项 分 布 , 30 
多 元 正 态 分 布 , 183 
多 元 正 态 分 布 , 30 
二 项 式 分 布 , 19 
高 斯 分 布 , 20 
几何 分 布 , 19 
均匀 分 布 , 20 
离散 均匀 分 布 , 18 
正 态 分 布 , 20 
分 层 对 数 线性 模型 , 229 
分 层 模 型 , 45, 328 
分 解 定理 , 305 
分 类 , 68, 273 
分 类 规则 , 273 
分 类 器 , 误差 率 评估 , 285 
分 位 数 , 78 
分 位 数 函 数 , 18 
分 支 过 程 , 314 
粉碎 , 289 
粉碎 系数 , 288 
风险 , 160, 234, 247 
风险 的 交叉 验证 估计 , 239 
Wim, 70 
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概率 , 3 
概率 不 等 式 , 50, 285 


概率 测度 , 3 

概率 分 布 , 3 

概率 函数 , 15 

概率 密度 函数 名 , 15 
干预 , 212, 213 
高 斯 分 布 , 20 

公理 1,3 

公理 2, 3 

公理 3, 3 
古典 的 频率 统计 推断 , 68 
关联 不 是 因果 , 197 
关注 参数 , 91 

光滑 方法 ; 234 

归 一 化 系数 , 317 
规范 正 交 的 , 255 
规范 正 交 基 , 254 


核 , 242 

核 方法 , 292 
核 方法 , 292 
核 密度 估计 , 241, 242 
后 向 拟 合 , 251 
弧 , 218 
ER, 7 
划分 , 2 
回归 , 68, 275 
回归 变量 , 68 
回归 函数 , 68, 274 
混合 正 态 , 112 


” 混淆 变量 , 214 


混杂 度 , 283 
BAT ASH, 51 


基尼 指数 , 284 
基于 正 态 的 置信 区 间 , 71, 76 
极 大 似 然 估计 , 93 
相合 性 , 167 
极 大 团 , 221 
计算 极 大 似 然 估 计 ，111 
极限 分 布 , 307 ` 
极限 理论 , 55 
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极 小 的 , 222 

几何 分 布 , 19 

计数 过 程 , 311 
假设 , 5 

假设 检验 , 72 

检验 假设 条 件 , 104 
检验 统计 量 , 137 
简单 线性 回归 , 163 
建议 , 324 

浙 近 理论 , 55 

浙 近 一 致 可 积 的 , 64 
渐 近 正 态 性 , 98 
渐 近 最 优 的 , 101 
交叉 验证 , 285 

接受 - 拒绝 抽样 , 332 
节点 , 218 

经 验 分 布 函数 ，74 
经 验 风险 极 小 化 , 275, 286 
经 验 概率 测度 ，288 
经 验 误差 率 , 274 
$i, 39 

ftiit, 92 
矩 母 函数 ， 45 
拒绝 域 , 117 

决策 理论 , 58 

均匀 分 布 , 20 

均值 , 37 
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柯 西 分 布 , 22 

柯 西 - 施 瓦 欧 不 等 式 ,52 
可 测 的 , 9 

可 达 的 , 304 
空间 非 齐 性 的 , 265 


拉 普 拉 斯 变换 ，45 
懒惰 ，38 

懒 情 统计 学 家 法 则 , 38 
类 , 304 
累积 分 布 函 数 , 14 
离散 的 , 15 

离散 均匀 分 布 , 18 


离散 小 波 变换 , 269 
联合 密度 函数 , 23 
两 两 不 相交 , 4 
邻接 的 , 206, 218 
零 的 , 306 

路 , 218 


马尔 可 夫 不 等 式 , 50 
马尔 可 夫 等 价 的 , 211 
马尔 可 夫 链 , 300 
密度 估计 , 272, 275 
核 方法 , 292 
模型 生成 元 , 230 
模型 选择 , 176 
母 节点 , 206 


拟 合 不 足 , 171 
拟 合 优 度 检验 , 132 
SEMA, 332 


判别 , 273 

判别 函数 , 277 

偏差 -方差 平衡 , 234, 235 
平方 积分 误差 (ISE), 234 
平均 常 返 时 间 , 306 
朴素 贝 叶 斯 分 类 器 ，282 
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期 望 , 43 

条 件 , 175 
期 望 平方 积分 误差 (MISE), 234 
期 望 值 , 37 
嵌入 式 估计 量 , 76 
强 不 容许 的 , 161 
强大 数 定律 , 64 
强度 函数 , 311 
切 比 雪夫 不 等 式 , 50 
清晰 度 系数 , 267 
曲线 估计 , 68, 234 
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全 概率 法 则 , 8 图 性 对 数 线性 模型 ，227 
团 , 221 
R 
容 度 , 118 
TRER, 67 外 星人 , 211 
BARE, 59 完备 的 , 255 
完全 的 , 218 
8 维 数 灾难 , 247 
神经 网 络 , 296 无 偏 的 , 69 
时 齐 泊 松 过 程 , 311 无 向 图 , 218 
时 齐 的 , 301 
实现 , 1 
事件 , 1 习题 , 9 
势 , 221 细致 平衡 , 307, 326 
HRM, 118 先 验 分 布 , 140 
输出 变量 , 68 线性 可 分 的 , 290 
树叶 , 284 相关 系数 , 41 
水 平 , 118 相合 的 , 69 
似 然 比 检验 , 129 相依 的 , 26 
似 然 函 数 , 338 相应 变量 , 68 
松弛 变量 , 292 相遇 , 206 
随机 变量 ，13 响应 变量 , 68 
随机 变量 的 变换 ，31 小 波 , 266 
随机 过 程 , 299 协 变量 , 171 
随机 模拟 , 104 协 方差 , 41 
随机 模拟 , 82, 136 协 方差 矩阵 , 42 
随机 向 量 , 29, 61, 66, 180 信息 偏差 , 231 
随机 游 动 -Metropolis-Hastings, 327 训练 集 , 285 
随机 游 走 ， 47 训练 误差 率 , 274 
i 
特征 , 274 验证 集 , 285 
提升 法 , 296 样本 点 , 1 
条 件 , 175 样本 方差 , 40 
条 件 独 立 性 , 205 样本 分 位 数 , 78 
条 件 分 布 , 109 样本 均值 , 40 
条 件 概率 密度 函数 , 27, 28 样本 空间 , 1 
条 件 期 望 , 43 样本 相关 系数 , 78 
通过 干预 的 调节 , 213 — BYE, 37 
统计 泛 函 , 68, 76 依 分 布 收敛 , 55 
统计 量 , 107, 108, 172, 189 依 概率 收敛 , 55 
统计 模型 , 67 引言 , 1 


图 性 , 227 有 关 和 集合 的 术语 , 2 
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有 限 样本 空间 上 的 概率 , 4 自然 充分 统计 量 , 109 
有 向 非 循环 图 , 206 最 小 二 乘 估计 , 165 
有 向 分 离 的 , 209, 210 最 小 最 大 规则 , 156 
有 向 分 离 准 则 , 209 
有 向 连通 的 , 206, 209 其 他 
有 向 图 , 206 
有 指导 学 习 , 274 eo 
余弦 基 , 255 pitt, 122 
预测 , 68, 273 tim, 134 
预测 变量 , 68 AIC(Akaike 信息 准则 ), 172 
预测 区 间 , 168 Benjamini-Hochberg(BH) 方法 , 131 
元 素 , 1 BIC, 173 
原 假设 , 72 117 Bonferroni 方法 , 130 
z Bootstrap 方差 估计 , 82 
Bootstrap 置信 区 间 , 83 
IRA BX, 52 Chapman-Kolmogorov 方程 , 302 
真实 误差 率 , 274 CLT, 60 
正规 的 , 254 DAG, 206 
正 交 函数 , 254 Delta 方法 , 62, 101 
正 交 函数 法 , 254 EM 算法 , 112 
正 态 分 布 , 20 Epanechnikov 核 , 242 
证 据 , 123 FDP, 131 
支持 向 量 , 290, 291 FDR, 131 
支持 向 量 机 , 290 Fisher 线性 判别 函数 , 279 
直方 图 , 234 Fisher 信息 矩阵 ，115 
直方 图 估计 , 236 Fisher 信息 量 , 115 
指标 集 , 299 Gibbs 抽样 , 327 
指数 族 , 109 Gibbs 中 的 Metropolis, 330 
置换 分 布 , 127 Glivenko-Cantelli 定理 , 74 
置换 检验 的 算法 128 Harr 尺度 函数 , 266 
置信 带 , 240 Harr 父 小 波 , 266 
置信 集 , 70 Harr 母 小 波 , 266 
置信 区 间 , 51, 70 Harr 小 波 回归 , 268 
中 位 数 , 18 Horwitz-Thompson, 149 
Bootstrap, 104 James-Stein 估计 , 162 
中 心 极 限定 理 (CLT), 60 Jeffreys-Lindley 悖 论 , 151 
重要 抽样 , 322 Kolmogorov-Smirnov 检验 , 192 
周期 , 307 Kullback-Leibler 距离 , 97, 113, 177, 178 
周期 的 , 307 Legendre 多 项 式 , 257 
BASIE, 296 logistic 回归 , 175 
状态 空间 , 299 Mahalanobis 距离 , 276 
子 节点 , 206 Mercer 定理 , 293 
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Nadaraya-Watson 核 估计 , 247 
Newton-Raphson, 111 
Neyman-Pearson, 134 
Pearson 卡 方 检验 , 188 

se, 69 


Simpson 人 悖 论 , 202 
Stein 悖 论 , 161 
Stirling AX, 306 
Stone 定理 , 245 
Wald 检验 , 119 
Zheng-Loh 方法 , 174 


